xi jornadas nacionales de bioestadística ix seminario chileno de...

44
1 XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de Estadística Bayesiana IV Encuentro Odontológico – Estadístico Bioestadística Básica con Rcmdr Instituto de Matemática y Física Facultad de Ciencias de la Salud Talca, 12 - 14 de enero de 2011. Universidad de Talca – Campus Lircay – Auditorio FACE – http://inst-mat.utalca.cl/jornadasbioestadistica2011

Upload: lecong

Post on 05-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

1

XI Jornadas Nacionales de Bioestadística

IX Seminario Chileno de Estadística Bayesiana

IV Encuentro Odontológico – Estadístico

Bioestadística Básica con Rcmdr

Instituto de Matemática y Física

Facultad de Ciencias de la Salud

Talca, 12 - 14 de enero de 2011.

Universidad de Talca – Campus Lircay – Auditorio FACE – http://inst-mat.utalca.cl/jornadasbioestadistica2011

Page 2: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

2

AUSPICIAN

Organizan: Instituto de Matemática y Física, Facultad de Ciencias de la Salud, Universidad de Talca. Patrocinan: The

International Biometric Society, International Society for Bayesian Analysis. Auspician: Dirección de Investigación,

Universidad de Talca, Sociedad Chilena de Estadística, Universidad Católica del Maule, Universidad de Santiago de Chile,

Universidad de Concepción, Pontificia Universidad Católica de Chile, Proyecto MECESUP PUC0802, The University of

Adelaide, Oral-B, Colgate y Dentaid.

Page 3: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

3

BIOESTADÍSTICA BÁSICA CON R-Commander (Rcmdr)

Juan Barrera y Alex Soto. Instituto de Matemática y Física. Universidad de Talca.

CONTENIDO

– Objetivo

– Bibliografía

– Introducción

– Instalación de R-Commander

– La organización de la información

– Estadística descriptiva

OBJETIVO

Presentar los aspectos fundamentales del manejo, análisis y representación gráfica de datos en R a través de la

interfaz R-Commander (Rcmdr).

BIBLIOGRAFÍA

Estadística Básica con R y R-Commander. A. J. Arriaza Gómez, F. Fernández Palacín, M. A. López Sánchez,

M. Muñoz Márquez, S. Pérez Plaza, A. Sánchez Navas. http://knuth.uca.es/moodle/course/view.php?id=37

INTRODUCCION

¿Qué es R?

“R es un lenguaje y ambiente computacional para la realización de gráficos y análisis estadístico”.

Usaremos R a través de su interfaz gráfica R-Commander, que se denotará abreviadamente como Rcmdr.

– R fue desarrollado por Dr. Ross Ihaka and Dr. Robert Gentleman (Dept. of Stats, Univ. Of Auckland) en

1992.

– La interfaz gráfica de usuario (GUI) Rcmdr pretende, en primera instancia, facilitar el manejo de R y, en

segundo lugar, servir como generador de instrucciones R.

– R-cmdr es uno de los mejores y más poderosos paquetes estadísticos.

– R-cmdr es totalmente gratuito.

Page 4: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

4

¿Cuáles son los grandes atractivos de Rcmdr?

– Los gráficos de alta calidad.

– La capacidad de combinar, análisis específicos para cada situación.

– La capacidad de manipular y modificar datos y funciones.

– Las actualizaciones son frecuentes.

– En este momento se encuentra disponible la versión R 2.11.1 (29 junio 2010)

¿Cuántos usan Rcmdr?

No se puede estimar directamente ya que es un software “gratuito” que se baja directamente de varios sitios en

Internet.

Page 5: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

5

¿Qué libros en estadística usan R?

¿Donde se encuentra información sobre R?

• Los manuales en el directorio de instalación con documentación http://www.cran.r-project.org/ (manuals)

- An introduction to R.

- The R language definition.

- Writing R extensions.

- R data import/export.

- R installation and administration.

- R Internals.

- The R Reference Index. • El sitio http://www.r-project.org/

•Pueden subscribirse a la lista de correo para actualizaciones de R (no Rcmdr)

https://www.stat.math.ethz.ch/mailman/listinfo/r-help.

• El Newsletter” de R: “Rnews”.

Page 6: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

6

INSTALACIÓN DE R-Commander

La descarga de R en el equipo se efectúa desde: http://knuth.uca.es/R/doku.php. Seleccionar el link

Versión 2.11.1 Paquete R-UCA para Windows. Luego se procede con la ejecución, siguiendo las instrucciones.

Si se cierra Rcmdr (sin cerrar R) y requiere volver a cargarlo, se debe ejecutar la instrucción Commander().

LA ORGANIZACIÓN DE LA INFORMACIÓN

• La estadística y la calidad de los datos (Bioestadística, Erica Taucher)

“El estadístico ha dejado de ser un alquimista del cual se espera produzca oro a partir de cualquier material

sin valor. Es más bien un químico capaz de determinar exactamente cuánto contiene de valioso, y capaz

también de extraer esa cantidad y no más… Si es competente en su oficio, el valor de los resultados

dependerá exclusivamente de la calidad del material que se le ha entregado” (R.A. Fisher).

• Definiciones

Validez: se dice que una medida tiene validez si es indicativa del estado que se pretende medir. En otras

palabras, debería reflejar la verdad. Ejemplos: la fiebre puede no ser in indicador válido (suficiente) de

tifoidea; la ausencia de hijos puede no ser un indicador válido de esterilidad.

Error: diferencia entre la medida asignada a un objeto y su valor verdadero.

Observador: persona que interviene en el proceso de obtención de información desde la inspección,

interrogación, examen o medición del objeto, hasta el registro del dato.

Objeto o Unidad: es la menor división del material en estudio sometido a observación. Es un objeto

individual que puede ser materia de conocimiento por parte del observador. Recibe diferentes

denominaciones: elemento, individuo, unidad experimental, unidad de observación, caso, objeto, unidad

muestral, etc. Cuando la unidad es una persona, lo referimos como sujeto.

Variable: Característica del sujeto que puede tomar distintos valores en cada unidad. Por ejemplo, la estatura

de una persona: asignamos un número a cada persona.

Dato u Observación: Son los distintos estados en los que se puede encontrar una característica de un sujeto.

Estos pueden ser cualitativos (hombre, mujer) o cuantitativos (161cm).

Page 7: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

7

Instrumento: es el medio utilizado para realizar la observación. Cuanto mayor sea el poder discriminatorio

del instrumento, tanto más precisa será la observación. Hay tres tipos principales de instrumentos:

- Aparatos: la medición se hace con un dispositivo mecánico. Ejemplo: básculas, termómetros.

- Humano: la medición la hacen las personas, con escasa o nula utilización de aparatos. Ejemplo:

auscultación del corazón.

- Combinación de humano y aparato: Ejemplo: interpretación de radiografías.

• Tipos de Variables

Una variable es una característica que cambia (varía) de unidad en unidad. Existen dos categorías o tipo de

variables:

Cualitativas: Los valores son identificados con palabras. Es aquella que expresa un atributo o característica

cuyos posibles valores se refieren a una cualidad presente o ausente. Los posibles valores son excluyentes.

Esta a su vez la podemos subdividir en:

◦ Nominal: Permite agrupar observaciones de acuerdo a una cualidad o atributo. No existe una relación de

orden.

◦ Ordinal: Permite agrupar observaciones de acuerdo a una cualidad o atributo cuyos valores tienen una

relación de orden.

Cuantitativas: Es aquella que podemos expresar numéricamente: edad, peso, nº de hijos, etc. Esta a su vez la

podemos subdividir en:

◦ Discreta: Es aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores

enteros.

◦ Continua: El número de valores posibles entre dos valores dados es infinito. Son el resultado de medir.

Page 8: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

8

ACTIVAR R-Commander

Inicio > Todos los programas > R > R

Al activarse R-Commander mostrará tres ventanas:

- Ventana de instrucciones

- Ventana de resultados

- Mensajes

Page 9: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

9

• Crear una base de datos

Datos > Nuevo conjunto de datos…

En ventana: Nuevo conjunto de datos > en Introducir el nombre del conjunto de

datos: “datos”. Solo caracteres (no numérico)

En ventana Editor de datos > con el botón izquierdo del mouse seleccione “var1”

Page 10: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

10

En ventana Editor de variables > en Nombre de variable > “nombrevar1” y seleccionar tipo

(numeric ó carácter).

Page 11: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

11

• Importar una base de datos

Datos > Importar datos > desde conjunto de datos Excel, Access o dBase…

En ventana: Importar datos desde Excel, Access o dBase > en Introducir el

nombre del conjunto de datos: “datos”. Solo caracteres (no numérico)

Si desea solo mirar los datos seleccione el botón Visualizar conjunto de datos.

Page 12: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

12

R-Commander mostrará la plantilla de la siguiente manera:

Si desea editar los datos seleccione el botón Editar conjunto de datos.

R-Commander mostrará la plantilla de la siguiente manera:

Al importar los datos, R-Commander clasifica el tipo de variable automáticamente.

Page 13: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

13

• La plantilla (matriz) de datos

Se define como la manera de organizar la información de un conjunto de n individuos de los cuales se obtienen

una serie de k características (variables) de igual o distinta naturaleza. Es importante tener en cuenta que la

calidad del análisis que se realice, va a depender de la habilidad suficiente para seleccionar las variables

necesarias del conjunto de individuos.

Los datos obtenidos se organizarán en una matriz n×k, donde cada fila representa a un individuo o registro y las

columnas a las características observadas o variables. Las columnas tendrán naturaleza homogénea, pudiendo

tratarse de variables nominales, dicotómicas o politómicas, presencias–ausencias, conteos, escalas de intervalo,

razones, etc. En ocasiones se añade una columna que se suele colocar en primer lugar y que asigna un nombre a

cada individuo; dicha columna recibe el nombre de variable etiqueta (Id).

• Exportar datos de R a Excel

Datos > Conjunto de datos activo > Exportar el conjunto de datos activo…

En ventana: Exportar el conjunto de datos activos > Aceptar

Page 14: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

14

Inicio > Todos los programas > Excel > Abrir

Page 15: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

15

Page 16: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

16

Page 17: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

17

ESTADÍSTICA DESCRIPTIVA

• Validación de la matriz de datos

Hay veces en que por distintos motivos la matriz de datos presenta casillas vacías, ello se debe a que no se ha

podido medir un dato o a que se ha perdido la observación. En otras ocasiones un dato presente en la matriz ha

sido depurado por presentar algún tipo de anomalía, como haber sido mal medido, mal transcrito a la matriz de

datos, etc. La identificación de estos elementos anómalos se realiza mediante un proceso de detección de

inconsistencias o de evaluación de valores extremos, muy grandes o muy pequeños, que determinará si

razonablemente pueden pertenecer al conjunto de datos. A veces se sustituye el valor depurado de individuo por

uno que sea congruente con el resto de caracteres del mismo, mediante técnicas que se conocen como de

imputación. Los espacios en blanco que definitivamente queden en la matriz se referirán como valores omitidos

o, más comunmente, como valores missing. En R estos valores se representan con NA (Not Available). En

función del tipo de análisis que se esté realizando, el procedimiento desestimará sólo el dato o todo el registro

completo.

Estadísticos > Resúmenes > Número de observaciones ausentes

Page 18: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

18

Estadísticos > Resúmenes > Resúmenes numéricos

Page 19: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

19

Gráficas > Diagrama de dispersión…

Page 20: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

20

Datos > Modificar variables del conjunto de datos activo > Calcular una

nueva variable…

Page 21: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

21

Estadísticos > Resúmenes > Resúmenes numéricos

Page 22: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

22

Page 23: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

23

Datos > Modificar variables del conjunto de datos activo > Recodificar

datos

Nota: el límite inferior corresponde al intervalo abierto y el superior al intervalo cerrado.

Page 24: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

24

Estadísticos > Resúmenes > Distribución de frecuencias…

Page 25: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

25

Page 26: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

26

Gráficas > Gráfica de barras…

Page 27: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

27

Page 28: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

28

Page 29: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

29

Page 30: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

30

Page 31: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

31

Datos > Modificar variables del conjunto de datos activo > Reordenar

niveles de factor…

Page 32: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

32

Page 33: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

33

Gráficas > Gráfica de sectores…

Page 34: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

34

Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo…

Datos > Conjunto de datos activo > Seleccionar el conjunto de datos activo

Page 35: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

35

Page 36: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

36

Gráficas > Diagrama de caja…

Page 37: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

37

Gráficas > Gráfica XY…

Page 38: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

38

Page 39: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

39

Estadísticos > Tablas de contingencia > Tabla de doble entrada…

Page 40: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

40

Gráficas > Gráfica de barras…

Page 41: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

41

Page 42: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

42

Page 43: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

43

Page 44: XI Jornadas Nacionales de Bioestadística IX Seminario Chileno de ...inst-mat.utalca.cl/jornadasbioestadistica2011/doc/apuntes_barrera... · Si es competente en su oficio, el valor

44