2 estadística descriptiva (variables continuas-graficas) x

80
Estadística Descriptiva para variables continuas

Upload: yesibel-jaime

Post on 08-Nov-2015

31 views

Category:

Documents


3 download

DESCRIPTION

.

TRANSCRIPT

  • Estadstica Descriptiva para variables continuas

  • Tpicos a tratar

    Identificacin de variables continuasMedidas de tendencia central y dispersinPresentaciones grficasEstimacin puntual e intervalos de confianzaManejo de valores fuera de rango

  • Que buscamos?Obtener un sabor de los datos continuos

    Aprender de los datos continuos a travs de una visualizacin grficaExaminar la calidad de los datos

  • Los observables

    En la naturaleza existen los observables aquellas propiedades que pueden ser percibidas por los sentidos o instrumentos especializados.Observables fsicosCuantificables (medibles)Observables no-fsicosNo pueden ser cuantificados (an)

  • MedicinCuantificar = MedirMedir = Comparar con un patrn

    El patrn define la unidad de medida adoptada por un instrumento de medicin

  • Observables fsicos

    Observables fsicos: (magnitudes fsicas)TemperaturaPesoTallaEdadEstado civilSexoColorObservables No-fsicosLa belleza de una obra de arteEl amorLa inteligencia?

  • Variables versus ConstantesDepende del contexto ! La edad de una persona es una constante en un instante dado, pero es una variable dentro de una poblacin.La edad media es una constante para la poblacinLa desviacin estndar de la edad es una constante de la poblacinGeneralmente las constantes van a ser parmetros de una poblacin, que no conocemos y que deseamos estimarEdad media, talla media, prevalencia de TB en el Per, incidencia de dengue en el Per,

    Las variables son cambiantesLa edad de cualquier individuo en una poblacinEl tiempo desde el ingreso a UCI hasta que un paciente es dado de alta

  • Tipos de variables:

    Discretas, categricasOrdinal: severidad de un clicoNominal: sexoDicotmica: si o no, ausencia o presencia

    Continuas: Temperatura, frecuencia cardaca,

  • Las variables continuas

    El carcter continuo de una variable lo da la naturaleza intrnseca del observable fsico y es independiente de la manera cmo se mida (i.e. del instrumento utilizado) de la manera cmo se reporte la medicin

  • Efecto de la manera cmo se mide una variableImaginemos que medimos la induracin del PPD en varios pacientes, y para ello utilizamos una regla milimetrada. Las dimensiones medidas para diferentes personas fueron:5mm, 12mm, 9mm, 32mm, 21mm

    Aparentemente estamos frente a una variable discreta, aunque en realidad la induracin (longitud) es y debe tratarse de manera continua.

  • Efecto de la manera cmo se reporta una variable

    Imaginemos que medimos la duracin de la permanencia en UCI de pacientes en un hospital. Los tiempos medidos para diferentes pacientes fueron:15das, 2das, 9das, 12das, 31das

    Aparentemente estamos frente a una variable discreta, aunque en realidad el tiempo es y debe tratarse de manera continua.

  • Rigurosamente hablando

    Por ltimo, nada es continuo cuando se alcanza los lmites moleculares!! El principio de incertidumbre de Heisenberg

    De manera prctica, todo depende de la escala en que trabajemos

  • Comandos usados en STATA para identificar el tipo de variable:CodebookInspect

  • ATENCION !STATA puede identificar un tipo de variable de manera erronea !

    Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

  • Comando summarize (su)

  • Distribucin de frecuenciasUna lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulacin (en valores absolutos o porcentajes) de cuntas observaciones en los datos se encuentran en cada categora.

  • De variables continuas a variables categricas

    Raw Score

    Frequency

    64

    2

    63

    1

    61

    2

    59

    2

    56

    2

    52

    1

    51

    2

    38

    4

    36

    3

    34

    5

    31

    5

    29

    5

    27

    5

    25

    1

    24

    2

    21

    2

    17

    2

    15

    1

    6

    2

    3

    1

    n = 50

    Raw Scores

    (Intervals of Five)

    Frequency

    6064

    5

    5559

    4

    5054

    3

    4549

    0

    4044

    0

    3539

    7

    3034

    10

    2529

    11

    2024

    4

    1519

    3

    1014

    0

    59

    2

    04

    1

    n = 50

  • Representacin grfica de una tabulacin bivariada

  • Comando histogram

  • Estadsticas de resumen:El conjunto de agregados numricos de una distribucin de frecuencias las que resumen una caracterstica especfica de un conjunto de datos.

  • Estadsticas de resumen importantes Tendencia Central MediaMedianaModaPercentilMedidas de resumen de una muestraVariacinVarianzaDesviacin EstandarCoeficiente de VariacinRango

  • Medidas de VariacinVariacinVarianzaDesviacin EstandarCoeficiente de variacinVarianza de la poblacinVarianza de la muestraDesviacin estandar de la poblacinDesviacin estandar de la muestraRangoRango Intercuartil

  • Las medidas de resumen a utilizar dependen del tipo de variable a explorar !DATOS CATEGRICOS

  • Comandos usados en STATA para obtener estadsticas de resumenSummarize (variables numricas)Tabstat

  • Summarize varlist, detail

  • tabstat varlist, stats( options )

  • Ejemplo

  • by / bysort y Tabstat

  • Usando menues en STATA 8

  • Estimacin puntual e intervalos de confianza

    Los parmetros de una poblacin tienen un valor fijo, (es un nmero exacto)Usualmente estos parmetros no se conocen, por que es complicado medir a toda la poblacinAnte esto, los parmetros se estiman a partir de una muestra de la poblacin.La estimacin puede ser puntual o en un intervalo de confianza

  • Estimacin puntual de la MEDIAPoblacinMuestra

  • Estimacin puntual de la VARIANZAPoblacinMuestra

  • Efectos del muestreo en la estimacin de un parmetro

  • Es mejor estimar el intervalo de confianza de un parmetro antes que su estimacin puntualEl intervalo de confianza es una variable aleatoriaEl 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parmetro estimado

  • Comandos en STATA para los Intervalos de Confianza: ci

  • Intervalos de confianza de variables normalesStd.Err. = Std.Dev / sqrt(N)

  • Ci varlist, level( )

  • Intervalos de confianza de proporciones

  • Usando los menues de STATA 8

  • Exploracin grfica

    Una manera visual y muy intuitiva de tener una imagen clara de los datos.Mtodo muy usado para presentar resultados.Un solo grfico puede contener una densidad muy alta de informacinSujeta a interpretaciones subjetivas y problemas de ilusin

  • Representacin grfica de una tabulacin bivariada

  • Comparando Desviaciones Estandard Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 2111 12 13 14 15 16 17 18 19 20 21Data BData AMean = 15.5 s = .925811 12 13 14 15 16 17 18 19 20 21Mean = 15.5 s = 4.57Data C

  • Dos bases de datos hipotticas Es importante tener una imagen visual de la distribucin de la variableLa media provee una buena representacin de los valores en la base de datos.Datos de baja variabilidadDatos con alta variabilidadLa media ya NO provee ahora una buena informacin de los datos comosuceda anterioremente

    Al incrementar datos la distribucin cambia..

  • Perfil de la distribucin (skewness coefficient) Describe cmo los Datos estn Distribudos Caracterizacin del perfil de la distribucin: Simtrica o sesgada

  • Perfil de la distribucin Describe cmo los Datos estn Distribudos Caracterizacin del perfil de la distribucin: Simtrica o sesgadaSimtricaMedia = Mediana = Moda-0.5
  • Perfil de la distribucin Describe cmo los Datos estn Distribudos Caracterizacin del perfil de la distribucin: Simtrica o sesgadaSesgada izquierdaSimtricaMean = Median = ModeMean Median Mode< -1 -0.5
  • Perfil de la distribucin Describe cmo los Datos estn Distribudos Caracterizacin del perfil de la distribucin: Simtrica o sesgadaSesgada derechaSesgada izquierdaSimtricaMedia = Mediana = ModaMedia Mediana Moda Mediana MediaModa< -1 > 1 -0.5
  • Veamos la base de malaria y comprobemos el perfil de EDAD.

  • El comando histogram en STATA

  • Histogram inf_edad, bin(12) kdensity

  • Box Plot (Grfico de cajas) Se muestra grficamente los datos utilizando 5 nmeros (estadsticas de resumen)Mediana4 6 8 1012Q3Q1XMximoXMnimo

  • Relacin entre el perfil de la distribucin y el Box PlotSesgada derechaSesgada izquierdaSimtricaQ1 Mediana Q3Q1 Mediana Q3Q1 Mediana Q3

  • El comando Graph en STATA

  • graph box inf_edad

  • Box plot

  • Los grficos box-plot permiten realizar comparaciones

  • Grficos tallo y hoja comando stem de STATA

  • Scatter-plots y Ejemplos de Relaciones No-lineales

  • Representacin grfica y problemas ticosLast year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we dont want to give it the same emphasis.Thats easy. For our stockholders, well show it in our annual report as a coin in perspective and take the 25 percent profits from the front Whereas for the union, well show it from the back where it wont look anywhere as impressive..

  • Representacin grfica y problemas ticosOops, we certainly dont want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.No sweat. Well switch the two components around. This way, by placing the administrative costs at the top, it doesnt look so damning. As a matter of fact, it looks like its going down.LaborCostsAdministrativeCostsLaborCostsAdministrativeCosts

  • Representacin grfica y problemas ticosNow, if you could only show this declining sales picture as going up, all my problems would be solved.Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like its going up.87888990919202550751008788899091920255075100

  • Manejo de datos fuera de rango (outliers)Los Outliers son valores que se consideran No Pertenecen al conjunto de datos.

    Razones para darse:1.Errores de medicin2. Resultados atpicos

    La recomendacin es corregir los errores (si es posible) y remover las observaciones atpicas.PERO! Y si as es la ciencia ?! Mejor hacer doble anlisis: con y sin outliers

  • Anlisis de OUTLIERS:

    Datos SimtricosValores que se exceden en 3 DS de la media-3soutlier regionoutlier region + 3s

  • Anlisis de OUTLIERS: Datos sesgados:Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente) Sesgada izquierdaSesgada PositivaQ1 3(Q3 Q1)Q1Q3Q1Q3Q3 + 3(Q3 Q1)outlier region outlier region

  • Tratamientos TB MDR

  • +

    -

    o

    P++

    P - -

    P - +

    P + -

    P++

    P - -

    P - +

    P + -

    P++

    P - -

    P - +

    P + -

    +

    +

    +

    -

    -

    -

    o

    o

    o

    Beginning of treatment

    1st month of treatment

    2nd month of treatment

    3rd month of treatment

  • Probabilidad de Conversin en Bk y Cultivo durante el tratamiento Estandarizado

  • Proporcin acumulada de casos Bk y cultivo negativos a lo largo del tratamiento dentro de los que fueron positivos

    ********************************************