sesion han 3

17
· ·

Upload: sergio-ramos

Post on 01-Oct-2015

29 views

Category:

Documents


1 download

DESCRIPTION

d

TRANSCRIPT

  • Curso Introduccin R: Sesin 3

    David V. Conesa Guilln

    Grup d'Estadstica Espacial i Temporal en Epidemiologia i Medi Ambient

    Dept. d'Estadstica i Investigaci Operativa

    Universitat de Valncia

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 1 / 33

    Sesin 3: Descripcin numrica y grca de datos.

    En esta sesin:

    1.- Estadstica bsica.

    2.- Distribuciones de Probabilidad. Generacin de variables aleatorias.

    3.- Tablas de frecuencias.

    4.- Medidas de localizacin, dispersin y forma.

    5.- Descripcin grca de datos en R.

    6.- Grcos para datos discretos.

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 2 / 33

  • Sesin 3: Descripcin numrica y grca de datos.

    Tambin:

    7.- Grcos para datos continuos.

    8.- Representacin de datos multivariantes.

    9.- Grcos para estudiar la distribucin de unos datos. Estimacin de

    densidades.

    10.- Parmetros grcos. Cambios permanentes: la funcin par().

    11.- Exportando grcos. Dispositivos grcos (device drivers).

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 3 / 33

    1.- Estadstica bsica.

    Los datos obtenidos cuando realizamos cualquier experimento

    presentan variabilidad:

    Iel peso de un bebe al nacer vara

    Ila cantidad de lluvia recogida en un dia en una determinada zona vara

    Ila altura de una planta sometida a dos tipos de abono vara, etc.

    La Estadstica es una disciplina que se ha desarrollado en respuesta a

    los experimentadores cuyos datos exhiben variabilidad.

    Los conceptos y mtodos de la estadstica nos permiten describir la

    variabilidad, planicar la investigacin tenindola en cuenta y analizar

    los datos para extraer el mximo de informacin de los mismos as

    como determinar la abilidad de las conclusiones que podamos obtener

    a partir de estos datos.

    Ya sabemos que R es un lenguaje que permite implementar tcnicas

    estadsticas.

    En esta sesin vamos a ver cmo podemos utilizar R para analizar los

    bancos de datos que habitualmente se nos presentan al trabajar.

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 4 / 33

  • 1.- Estadstica bsica.

    Variable Caracterstica de inters.Muestra Observada Conjunto de valores de la variable observadosobtenidos de manera homognea.

    Tamao muestral Nmero de datos observados.La manera de describir la muestra (nuestros datos) depende del tipo

    de atributo:

    ICualitativo Intrnsecamente no tiene carcter numrico(categrica)

    FNominal (sin orden entre los valores): Sexo

    FOrdinal (con valores ordenados): Nivel de estudios

    ICuantitativo Intrnsecamente numrico

    FDiscreto (cantidad nita o numerable de valores): Nmero de hijos

    FContinuo (valores en toda la recta real): Altura

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 5 / 33

    2.- Distribuciones de Probabilidad.

    R tiene las distribuciones de probabilidad ms comunes implementadas

    en la librera BASE. En otras libreras disponemos de otras tantas.

    Para cada una de ellas (distrib), disponemos de 4 versiones:

    generador de numeros aleatorios rdistrib

    funcin densidad/probabilidad ddistrib

    funcin distribucin pdistrib

    funcin inversa distribucin (cuantiles) qdistrib

    Ejemplo

    x.norm

  • Distribuciones de probabilidad en la librera BASE.

    Funcin Utilidad

    Normal rnorm(n, mean=0, sd=1)

    exponencial rexp(n, rate=1)

    gamma rgamma(n, shape, scale=1)

    Poisson rpois(n, lambda)

    Weibull rweibull(n, shape, scale=1)

    Cauchy rcauchy(n, location=0, scale=1)

    beta rbeta(n, shape1, shape2)

    t de Student rt(n, df)

    F (Snedecor) rf(n, df1, df2)

    Pearson 2 rchisq(n, df)binomial rbinom(n, size, prob)

    geomtrica rgeom(n, prob)

    hypergeomtrica rhyper(nn, m, n, k)

    logstica rlogis(n, location=0, scale=1)

    lognormal rlnorm(n, meanlog=0, sdlog=1)

    binomial negativa rnbinom(n, size, prob)

    uniforme runif(n, min=0, max=1)

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 7 / 33

    3.- Tablas de frecuencias para variables categricas.

    Hemos visto un factor es un vector utilizado para especicar una

    clasicacin discreta de los elementos de otro vector de igual longitud,

    y que en R existen dos tipos de factores (variables categricas):

    INominales: No existe jerarqua entre ellos (p.e., colores)

    IOrdinales: Existe jerarqua entre ellos (p.e., grupos de edad)

    Del mismo modo, dos factores denen una tabla de doble entrada, y

    as sucesivamente.

    La funcin table() calcula tablas de frecuencias a partir de factores

    de igual longitud.

    Si existen k argumentos categricos, el resultado sera una variable

    k-indexada, que contiene la tabla de frecuencias.

    Ejemplo

    x

  • 4.- Medidas de localizacin, dispersin y forma para

    variables cuantitativas continuas.

    La forma ms sencilla de empezar a describir unos datos cuantitativos

    es realizar un resumen estadstico.

    En la pgina siguiente tenemos un listado de las ms habituales para

    describir la localizacin y la dispersin.

    Para analizar la curtosis y la asimetra de unos datos podemos utilizar

    dos funciones de la librera e1071: skewness() y kurtosis().

    Ejemplo

    x

  • Ejemplo

    library(e1071)

    x

  • Grcas en R

    R tiene dos sistemas de producir grcos:

    IEl tradicional, que es el que veremos principalmente

    IGrcos Trellis (paquete Lattice) del que veremos algunos ejemplos

    Podemos dividir los comandos para efectuar las grcas en tres grupos:

    IFunciones para crear grcas de alto nivel, es decir ya programadas y

    que admiten diferentes posibilidades.

    IFunciones de bajo nivel, que permiten un control ms no del dibujo y

    permiten crear grcas a medida.

    IFunciones para el uso interactivo, para extraer informacin de una

    grca o una modicacin mediante el ratn.

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 13 / 33

    Funcin plot()

    El procedimiento grco de alto nivel ms habitual para dibujar datos es

    plot().

    Ejemplo

    x

  • Opciones de la funcin plot()

    Algunas de las ms tiles

    main: Cambia el ttulo del grco

    sub: Cambia el subttulo del grco

    type: Tipo de grco (puntos, lneas, etc.)

    xlab, ylab: Cambia las etiquetas de los ejes

    xlim, ylim: Cambia el rango de valores de los ejes

    lty: Cambia el tipo de lnea; lwd: Cambia el grosor de lnea

    col: Color con el que dibuja

    Ejemplo

    plot(x, y, main="Seno", type="l")

    plot(x, z, main="Coseno", lty=2, col="red", type="l")

    plot(x, z, main="Coseno", lty=3, col="blue", type="l",

    xlim=c(0, 2), ylab="cos(x)")

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 15 / 33

    Procedimientos de bajo nivel

    Hay una serie de funciones que permiten dibujar sobre una grca ya

    creada.

    Los ms habituales

    points(x, y, ...): Dibuja una nube de puntos

    lines(x, y, ...): Dibuja una lnea que une todos los puntos

    ablines(): Dibuja una lnea recta dada la interc. y pendiente

    polygons(x, y, ...): Dibuja un polgono cerrado

    text(x, y, labels, ...): Escribe texto en unas coordenadas

    Ejemplo

    plot(x, y, main="Funciones seno y coseno", type="l")

    lines(x, z, col="blue", lty=2) # col=4 es equivalente

    text(x=c(0.5, 0.5), y=c(0, 1), labels=c("sin(x)", "cos(x)"),

    col=c("black", "blue"))

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 16 / 33

  • Leyendas

    Descripcin

    La funcin legend(x, y, legend, ...) permite aadir leyendas a un

    grco:

    x,y : Esquina sup. izda. de la leyenda

    legend: Texto de la leyenda

    bty: Tipo de borde (n para omitir)

    Ejemplo

    plot(x, y, main="Funciones seno y coseno", type="l")

    lines(x, z, col="blue", lty=2)

    legend(x=3, y=1, legend=c("sin(x)", "cos(x)"), lty=c(1,2),

    col=c("black", "blue"))

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 17 / 33

    Funciones grcas interactivas.

    En R existen una serie de funciones que permiten completar los grcos de

    manera interactiva por parte del usuario

    Descripcin

    identify(x, y, etiquetas) identica los puntos con el ratn y

    escribe la correspondiente etiqueta.

    locator() devuelve las coordenadas de los puntos.

    Ejemplo

    plot(x, y, main="Funciones seno y coseno", type="l")

    lines(x, z, col=2, lty=2)

    legend(locator(1),legend=c("sin(x)","cos(x)"),lty=c(1,2),col=c(1,2))

    x

  • 6.- Grcos para datos discretos.

    Los ms habituales

    Para representar variables categricas o cuantitativas discretas (con pocas

    clases):

    Diagramas de puntos: dotplot()

    Diagramas de barras: barplot()

    Diagramas de quesos: pie()

    Ejemplo

    library(lattice)

    x

  • 8.- Representacin de datos multivariantes.

    Cuando queremos representar varias variables conjuntamente para detectar

    relaciones entre ellas, disponemos de diversos tipos de grcos:

    Los ms habituales

    Grcos de tendencias para tablas de contingencia: dotchart()

    Grcos de dispersin: plot() y pairs()

    Grcos condicionados: coplot().

    Ejemplo

    # Grficos de tendencias para tablas de contingencia

    data(VADeaths)

    dotchart(VADeaths, main = "Death Rates in Virginia - 1940")

    # Grficos condicionados

    data(quakes)

    coplot(latlong | depth, data = quakes)

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 21 / 33

    Ejemplo

    # Grficos de dispersin para revisar relaciones entre variables

    X

  • 9.- Grcos para estudiar la distribucin de unos datos.

    Cuando queremos estudiar cual es la posible distribucin de unos datos

    disponemos de diferentes funciones:

    Los ms habituales

    Histogramas: hist()

    Grcos qq: qqplot(), qqnorm() y qqline(). Dos posibles usos:

    IComparacin de cuantiles empricos versus cuantiles tericos: para

    comprobar si los datos se parecen a una determinada distribucin

    IComparacin de dos distribuciones empricas entre s

    Estimacin de la funcin de distribucin emprica: ecdf()

    Estimacin kernel de la funcin de densidad: density()

    Ejemplo

    # Histogramas

    y

  • Funcin de distribucin emprica.

    Ejemplo

    x

  • Representacin en 3D.

    Cuando queremos representar una funcin bivariante disponemos de

    diversos tipos de grcos:

    Los ms habituales

    Grcos en tres dimensiones: image()

    Grcos de contorno: contour(). Permite aadir lneas de nivel.

    Las libreras MASS y ks tienen funciones para estimar kernels

    bivariantes.

    Ejemplo

    x

  • Funcionamiento de la funcin par().

    Sin argumentos devuelve una lista con los parmetros y sus valores en

    activo.

    Ejemplo

    par()

    Con un argumento, vector de caracteres, con los nombres de algunos

    parmetros, devuelve una lista con los parmetros y sus valores en

    activo.

    Ejemplo

    par(c("col","lty")

    Con nombres de parmetros = valor, establece los nuevos valores

    Ejemplo

    par(col=4,lty=2)

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 29 / 33

    Ejemplos de parmetros grcos

    Colocar varias grcas en una ventana

    Los siguientes parmetros permiten disear el nmero de grcas en cada

    dispositivo grco

    mfrow: N

    o

    de las y columnas en la ventana. Los huecos se rellenan

    por las.

    mfcol: dem pero se rellena por columnas.

    Ejemplo

    x

  • 11.- Dispositivos grcos (device drivers).

    Por defecto, cuando realizamos la primera grca, R abre un

    dispositivo grco.

    Ponemos abrir nuevas ventanas grcas llamando a la funcin

    windows(). Con ello tendremos varios dispositivos donde dibujar.

    Para cerrar un dispositivo abierto utilizamos dev.off(). Si no

    tenemos claro cual cerrar, la funcin dev.list() nos puede ayudar a

    saber qu dispositivos hay abiertos y que numeracin tienen.

    Siempre hay uno activo, podemos saber cul es con dev.cur(). Si

    queremos activar otro podemos utilizar dev.set().

    Con la opcin histrico grabando activa R nos permite disponer de

    todos los grcos e ir accediendo al resto con Av.Pg. y Re.Pg.

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 31 / 33

    Exportando grcos.

    Para guardar una grca, podemos copiar y pegar desde la ventana

    grca a un tratamiento de textos que los permita.

    Desde el men Archivo -> Guardar como podemos guardar la

    grca como un chero metale, pdf, png, bmp, postscript, tif o jpg.

    Sin embargo esta opcin no es la mejor ya que no tenemos control

    sobre la propia grca y como queda guardada. Sobre todo a nivel de

    escala.

    Lo mejor es enviar directamente la grca a un dispositivo (pdf,

    postscript, etc.) utilizando funciones como pdf() o postscript().

    Ejemplo

    pdf("prueba.pdf", paper="special", width=13, height=7)

    hist(x

  • Licencia de este material

    Ms info: http://creativecommons.org/licenses/by-sa/3.0/es/

    Usted es libre de:

    copiar, distribuir y comunicar pblicamente la obra

    hacer obras derivadas

    Bajo las condiciones siguientes:

    Reconocimiento. Debe reconocer los crditos de la obra de la mane-

    ra especicada por el autor o el licenciador (pero no de una manera

    que sugiera que tiene su apoyo o apoyan el uso que hace de su

    obra).

    Compartir bajo la misma licencia. Si transforma o modica esta

    obra para crear una obra derivada, slo puede distribuir la obra

    resultante bajo la misma licencia, una similar o una compatible.

    David Conesa, GEe

    i

    tEma (UV) Introduccin a R: Sesin 3 33 / 33