![Page 1: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/1.jpg)
Estadística Descriptiva para
variables continuas
![Page 2: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/2.jpg)
Tópicos a tratar…
• Repaso clase anterior• Identificación de variables continuas• Medidas de tendencia central y dispersión• Presentaciones gráficas• Estimación puntual e intervalos de
confianza• Manejo de valores fuera de rango
![Page 3: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/3.jpg)
Que buscamos?Obtener un ‘sabor’ de los datos
continuos…
•Estimar algunos parametros de la poblacion, en forma puntual y por intervalos
•‘Aprender’ de los datos continuos a través de una visualización gráfica
•Examinar la calidad de los datos
![Page 4: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/4.jpg)
Clasificación general:
Categórica Cuantitativa o numérica
Nominal Ordinal Discreta Continua
![Page 5: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/5.jpg)
Ejemplos:
• Nominales: Sexo, estado civil, presencia de morbilidad, resultado del tratamiento
• Ordinales: Severidad de morbilidad, riesgo quirúrgico, resistencia a antibioticos
• Discretas: Cociente intelectual, tiempo de tratamiento u hospitalización
• Contínuas: concentración de alcohol en la sangre
![Page 6: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/6.jpg)
Comandos usados en STATA para identificar el tipo de variable:
• codebook
• tabulate
![Page 7: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/7.jpg)
![Page 8: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/8.jpg)
![Page 9: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/9.jpg)
![Page 10: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/10.jpg)
ATENCION !
• STATA puede identificar un tipo de variable de manera erronea !
• Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.
![Page 11: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/11.jpg)
Recordemos las características de una variable continua con distribución normal…
Figure 10.10
66
![Page 12: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/12.jpg)
Distribución de frecuencias
Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.
![Page 13: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/13.jpg)
Raw Score Frequency64 263 161 259 256 252 151 238 436 334 531 529 527 525 124 221 217 215 16 23 1
n = 50
Raw Scores(Intervals of Five) Frequency
60–64 555–59 450–54 345–49 040–44 035–39 730–34 1025–29 1120–24 415–19 310–14 05–9 20–4 1
n = 50
De ‘variables continuas’ a ‘variables categóricas’
MIRKO, usa tabulate con generate aqui para representar esto
Ojo que se les ha indicado que esto se usa mas para covariables que para sus outcomes
![Page 14: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/14.jpg)
Representación gráfica de una tabulación bivariada
![Page 15: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/15.jpg)
Comando “histogram”
![Page 16: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/16.jpg)
Estadísticas de resumen:
El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.
![Page 17: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/17.jpg)
Medidas de tendencia central:
• Promedio o media aritmética. Mas sensible a valores extremos
• Mediana o percentil 50: Valor que divide una distribución ordenada por la mitad
• Moda: Valor mas frecuente. Es mas usada para variables categóricas
![Page 18: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/18.jpg)
Medidas de dispersión:• Rango
• Intervalo intercuartil (diferencia entre los percentiles 25 y 75)
• Desviación estándar: en que monto promedio se desvían los valores observados de la media
• Varianza: media de las desviaciones (DE) elevada al cuadrado (?)
![Page 19: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/19.jpg)
Comandos usados en STATA para obtener estadísticas de resumen
• codebook (variables numéricas)
• tabulate
![Page 20: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/20.jpg)
Estimación puntual e intervalos de confianza
• Los parámetros de una población tienen un valor fijo, (es un número exacto)
• Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’
• Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población.
• La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’
![Page 21: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/21.jpg)
Efectos del ‘muestreo’ en la estimación de un parámetro
![Page 22: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/22.jpg)
Es mejor estimar el intervalo de confianza de un parámetro antes
que su estimación puntual…
• El intervalo de confianza es una ‘variable aleatoria’
• El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado
![Page 23: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/23.jpg)
Intervalos de confianza de variables normales
Std.Err. = Std.Dev / sqrt(N)
![Page 24: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/24.jpg)
Ci varlist, level( )
![Page 25: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/25.jpg)
Exploración gráfica
• Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos.
• Método muy usado para presentar resultados.
• Un solo gráfico puede contener una densidad muy alta de información
• Sujeta a interpretaciones subjetivas y problemas de ilusión
![Page 26: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/26.jpg)
Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball
Figure 10.8
6666
![Page 27: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/27.jpg)
Representación gráfica de una tabulación bivariada
![Page 28: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/28.jpg)
Comparando Desviaciones Estandard
Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Data B
Data A
Mean = 15.5 s = .9258
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5 s = 4.57
Data C
![Page 29: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/29.jpg)
Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable
La media provee una buena representación de los valores en la base de datos.
Datos de baja variabilidad
Datos con alta variabilidad
La media ya NO provee ahora una buena información de los datos comosucedía anterioremente
Al incrementar datos la distribución cambia..
![Page 30: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/30.jpg)
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución:
Simétrica o sesgada
![Page 31: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/31.jpg)
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución: Simétrica o sesgada
SimétricaMedia = Mediana = Moda
![Page 32: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/32.jpg)
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución: Simétrica o sesgada
Sesgada izquierda SimétricaMean = Median = ModeMean Median Mode
![Page 33: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/33.jpg)
Perfil de la distribución
• Describe cómo los Datos están Distribuídos
• Caracterización del perfil de la distribución: Simétrica o sesgada
Sesgada derechaSesgada izquierda SimétricaMedia = Mediana = ModaMedia Mediana Moda Mediana MediaModa
![Page 34: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/34.jpg)
El comando ‘histogram’ en STATA
![Page 35: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/35.jpg)
Histogram inf_edad, bin(12) kdensity
![Page 36: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/36.jpg)
Box Plot (Gráfico de cajas)
• Se muestra gráficamente los datos utilizando 5 números (estadísticas de
resumen)
Mediana
4 6 8 10 12
Q3Q1 XMáximoXMínimo
![Page 37: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/37.jpg)
Relación entre el perfil de la distribución y el Box Plot
Sesgada derechaSesgada izquierda Simétrica
Q1 Mediana Q3Q1 Mediana Q3 Q1
Mediana Q3
![Page 38: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/38.jpg)
El comando ‘Graph’ en STATA
![Page 39: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/39.jpg)
graph box inf_edad
0.0
1.0
2.0
3D
ensi
ty
0 20 40 60 80Edad del paciente
![Page 40: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/40.jpg)
Box plot
![Page 41: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/41.jpg)
Los gráficos ‘box-plot’ permiten realizar comparaciones
![Page 42: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/42.jpg)
Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA
![Page 43: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/43.jpg)
![Page 44: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/44.jpg)
Scatter-plots y Ejemplos de Relaciones No-lineales
![Page 45: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/45.jpg)
Ejemplos en Stata!
![Page 46: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/46.jpg)
Ganancias25%
Ganancias25%
Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.
That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …
Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.
Ganancias25%
.
![Page 47: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/47.jpg)
Representación gráfica y potenciales abusos
Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.
No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.
LaborCosts
AdministrativeCosts
LaborCosts
AdministrativeCosts
![Page 48: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/48.jpg)
Now, if you could only show this declining sales picture as going up, all my problems would be solved.
Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.
‘87 ‘88 ‘89 ‘90 ‘91 ‘920
25
50
75
100
‘87 ‘88 ‘89 ‘90 ‘91 ‘920
25
50
75
100
Representación gráfica y potenciales abusos
![Page 49: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/49.jpg)
Manejo de datos fuera de rango (outliers)
• Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.
• Razones para darse:• 1. Errores de medición• 2. Resultados atípicos
• La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.
• PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’
![Page 50: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/50.jpg)
![Page 51: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/51.jpg)
![Page 52: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/52.jpg)
Análisis de OUTLIERS:
Datos Simétricos
Valores que se exceden en 3 DS de la media
-3s X
outlier region
outlier region
+ 3sXX
![Page 53: Estadística Descriptiva para variables continuas](https://reader036.vdocumento.com/reader036/viewer/2022062321/56813713550346895d9e9b6d/html5/thumbnails/53.jpg)
Análisis de OUTLIERS:
Datos sesgados:
Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente)
Sesgada izquierda Sesgada Positiva
Q1 – 3(Q3 – Q1)Q1 Q3 Q1 Q3 Q3 + 3(Q3 – Q1)
outlier region outlier
region