xi jornadas nacionales de bioestadística ix seminario chileno de...

Post on 05-Nov-2018

215 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

XI Jornadas Nacionales de Bioestadística

IX Seminario Chileno de Estadística Bayesiana

IV Encuentro Odontológico – Estadístico

Bioestadística Básica con Rcmdr

Instituto de Matemática y Física

Facultad de Ciencias de la Salud

Talca, 12 - 14 de enero de 2011.

Universidad de Talca – Campus Lircay – Auditorio FACE – http://inst-mat.utalca.cl/jornadasbioestadistica2011

2

AUSPICIAN

Organizan: Instituto de Matemática y Física, Facultad de Ciencias de la Salud, Universidad de Talca. Patrocinan: The

International Biometric Society, International Society for Bayesian Analysis. Auspician: Dirección de Investigación,

Universidad de Talca, Sociedad Chilena de Estadística, Universidad Católica del Maule, Universidad de Santiago de Chile,

Universidad de Concepción, Pontificia Universidad Católica de Chile, Proyecto MECESUP PUC0802, The University of

Adelaide, Oral-B, Colgate y Dentaid.

3

BIOESTADÍSTICA BÁSICA CON R-Commander (Rcmdr)

Juan Barrera y Alex Soto. Instituto de Matemática y Física. Universidad de Talca.

CONTENIDO

– Objetivo

– Bibliografía

– Introducción

– Instalación de R-Commander

– La organización de la información

– Estadística descriptiva

OBJETIVO

Presentar los aspectos fundamentales del manejo, análisis y representación gráfica de datos en R a través de la

interfaz R-Commander (Rcmdr).

BIBLIOGRAFÍA

Estadística Básica con R y R-Commander. A. J. Arriaza Gómez, F. Fernández Palacín, M. A. López Sánchez,

M. Muñoz Márquez, S. Pérez Plaza, A. Sánchez Navas. http://knuth.uca.es/moodle/course/view.php?id=37

INTRODUCCION

¿Qué es R?

“R es un lenguaje y ambiente computacional para la realización de gráficos y análisis estadístico”.

Usaremos R a través de su interfaz gráfica R-Commander, que se denotará abreviadamente como Rcmdr.

– R fue desarrollado por Dr. Ross Ihaka and Dr. Robert Gentleman (Dept. of Stats, Univ. Of Auckland) en

1992.

– La interfaz gráfica de usuario (GUI) Rcmdr pretende, en primera instancia, facilitar el manejo de R y, en

segundo lugar, servir como generador de instrucciones R.

– R-cmdr es uno de los mejores y más poderosos paquetes estadísticos.

– R-cmdr es totalmente gratuito.

4

¿Cuáles son los grandes atractivos de Rcmdr?

– Los gráficos de alta calidad.

– La capacidad de combinar, análisis específicos para cada situación.

– La capacidad de manipular y modificar datos y funciones.

– Las actualizaciones son frecuentes.

– En este momento se encuentra disponible la versión R 2.11.1 (29 junio 2010)

¿Cuántos usan Rcmdr?

No se puede estimar directamente ya que es un software “gratuito” que se baja directamente de varios sitios en

Internet.

5

¿Qué libros en estadística usan R?

¿Donde se encuentra información sobre R?

• Los manuales en el directorio de instalación con documentación http://www.cran.r-project.org/ (manuals)

- An introduction to R.

- The R language definition.

- Writing R extensions.

- R data import/export.

- R installation and administration.

- R Internals.

- The R Reference Index. • El sitio http://www.r-project.org/

•Pueden subscribirse a la lista de correo para actualizaciones de R (no Rcmdr)

https://www.stat.math.ethz.ch/mailman/listinfo/r-help.

• El Newsletter” de R: “Rnews”.

6

INSTALACIÓN DE R-Commander

La descarga de R en el equipo se efectúa desde: http://knuth.uca.es/R/doku.php. Seleccionar el link

Versión 2.11.1 Paquete R-UCA para Windows. Luego se procede con la ejecución, siguiendo las instrucciones.

Si se cierra Rcmdr (sin cerrar R) y requiere volver a cargarlo, se debe ejecutar la instrucción Commander().

LA ORGANIZACIÓN DE LA INFORMACIÓN

• La estadística y la calidad de los datos (Bioestadística, Erica Taucher)

“El estadístico ha dejado de ser un alquimista del cual se espera produzca oro a partir de cualquier material

sin valor. Es más bien un químico capaz de determinar exactamente cuánto contiene de valioso, y capaz

también de extraer esa cantidad y no más… Si es competente en su oficio, el valor de los resultados

dependerá exclusivamente de la calidad del material que se le ha entregado” (R.A. Fisher).

• Definiciones

Validez: se dice que una medida tiene validez si es indicativa del estado que se pretende medir. En otras

palabras, debería reflejar la verdad. Ejemplos: la fiebre puede no ser in indicador válido (suficiente) de

tifoidea; la ausencia de hijos puede no ser un indicador válido de esterilidad.

Error: diferencia entre la medida asignada a un objeto y su valor verdadero.

Observador: persona que interviene en el proceso de obtención de información desde la inspección,

interrogación, examen o medición del objeto, hasta el registro del dato.

Objeto o Unidad: es la menor división del material en estudio sometido a observación. Es un objeto

individual que puede ser materia de conocimiento por parte del observador. Recibe diferentes

denominaciones: elemento, individuo, unidad experimental, unidad de observación, caso, objeto, unidad

muestral, etc. Cuando la unidad es una persona, lo referimos como sujeto.

Variable: Característica del sujeto que puede tomar distintos valores en cada unidad. Por ejemplo, la estatura

de una persona: asignamos un número a cada persona.

Dato u Observación: Son los distintos estados en los que se puede encontrar una característica de un sujeto.

Estos pueden ser cualitativos (hombre, mujer) o cuantitativos (161cm).

7

Instrumento: es el medio utilizado para realizar la observación. Cuanto mayor sea el poder discriminatorio

del instrumento, tanto más precisa será la observación. Hay tres tipos principales de instrumentos:

- Aparatos: la medición se hace con un dispositivo mecánico. Ejemplo: básculas, termómetros.

- Humano: la medición la hacen las personas, con escasa o nula utilización de aparatos. Ejemplo:

auscultación del corazón.

- Combinación de humano y aparato: Ejemplo: interpretación de radiografías.

• Tipos de Variables

Una variable es una característica que cambia (varía) de unidad en unidad. Existen dos categorías o tipo de

variables:

Cualitativas: Los valores son identificados con palabras. Es aquella que expresa un atributo o característica

cuyos posibles valores se refieren a una cualidad presente o ausente. Los posibles valores son excluyentes.

Esta a su vez la podemos subdividir en:

◦ Nominal: Permite agrupar observaciones de acuerdo a una cualidad o atributo. No existe una relación de

orden.

◦ Ordinal: Permite agrupar observaciones de acuerdo a una cualidad o atributo cuyos valores tienen una

relación de orden.

Cuantitativas: Es aquella que podemos expresar numéricamente: edad, peso, nº de hijos, etc. Esta a su vez la

podemos subdividir en:

◦ Discreta: Es aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores

enteros.

◦ Continua: El número de valores posibles entre dos valores dados es infinito. Son el resultado de medir.

8

ACTIVAR R-Commander

Inicio > Todos los programas > R > R

Al activarse R-Commander mostrará tres ventanas:

- Ventana de instrucciones

- Ventana de resultados

- Mensajes

9

• Crear una base de datos

Datos > Nuevo conjunto de datos…

En ventana: Nuevo conjunto de datos > en Introducir el nombre del conjunto de

datos: “datos”. Solo caracteres (no numérico)

En ventana Editor de datos > con el botón izquierdo del mouse seleccione “var1”

10

En ventana Editor de variables > en Nombre de variable > “nombrevar1” y seleccionar tipo

(numeric ó carácter).

11

• Importar una base de datos

Datos > Importar datos > desde conjunto de datos Excel, Access o dBase…

En ventana: Importar datos desde Excel, Access o dBase > en Introducir el

nombre del conjunto de datos: “datos”. Solo caracteres (no numérico)

Si desea solo mirar los datos seleccione el botón Visualizar conjunto de datos.

12

R-Commander mostrará la plantilla de la siguiente manera:

Si desea editar los datos seleccione el botón Editar conjunto de datos.

R-Commander mostrará la plantilla de la siguiente manera:

Al importar los datos, R-Commander clasifica el tipo de variable automáticamente.

13

• La plantilla (matriz) de datos

Se define como la manera de organizar la información de un conjunto de n individuos de los cuales se obtienen

una serie de k características (variables) de igual o distinta naturaleza. Es importante tener en cuenta que la

calidad del análisis que se realice, va a depender de la habilidad suficiente para seleccionar las variables

necesarias del conjunto de individuos.

Los datos obtenidos se organizarán en una matriz n×k, donde cada fila representa a un individuo o registro y las

columnas a las características observadas o variables. Las columnas tendrán naturaleza homogénea, pudiendo

tratarse de variables nominales, dicotómicas o politómicas, presencias–ausencias, conteos, escalas de intervalo,

razones, etc. En ocasiones se añade una columna que se suele colocar en primer lugar y que asigna un nombre a

cada individuo; dicha columna recibe el nombre de variable etiqueta (Id).

• Exportar datos de R a Excel

Datos > Conjunto de datos activo > Exportar el conjunto de datos activo…

En ventana: Exportar el conjunto de datos activos > Aceptar

14

Inicio > Todos los programas > Excel > Abrir

15

16

17

ESTADÍSTICA DESCRIPTIVA

• Validación de la matriz de datos

Hay veces en que por distintos motivos la matriz de datos presenta casillas vacías, ello se debe a que no se ha

podido medir un dato o a que se ha perdido la observación. En otras ocasiones un dato presente en la matriz ha

sido depurado por presentar algún tipo de anomalía, como haber sido mal medido, mal transcrito a la matriz de

datos, etc. La identificación de estos elementos anómalos se realiza mediante un proceso de detección de

inconsistencias o de evaluación de valores extremos, muy grandes o muy pequeños, que determinará si

razonablemente pueden pertenecer al conjunto de datos. A veces se sustituye el valor depurado de individuo por

uno que sea congruente con el resto de caracteres del mismo, mediante técnicas que se conocen como de

imputación. Los espacios en blanco que definitivamente queden en la matriz se referirán como valores omitidos

o, más comunmente, como valores missing. En R estos valores se representan con NA (Not Available). En

función del tipo de análisis que se esté realizando, el procedimiento desestimará sólo el dato o todo el registro

completo.

Estadísticos > Resúmenes > Número de observaciones ausentes

18

Estadísticos > Resúmenes > Resúmenes numéricos

19

Gráficas > Diagrama de dispersión…

20

Datos > Modificar variables del conjunto de datos activo > Calcular una

nueva variable…

21

Estadísticos > Resúmenes > Resúmenes numéricos

22

23

Datos > Modificar variables del conjunto de datos activo > Recodificar

datos

Nota: el límite inferior corresponde al intervalo abierto y el superior al intervalo cerrado.

24

Estadísticos > Resúmenes > Distribución de frecuencias…

25

26

Gráficas > Gráfica de barras…

27

28

29

30

31

Datos > Modificar variables del conjunto de datos activo > Reordenar

niveles de factor…

32

33

Gráficas > Gráfica de sectores…

34

Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo…

Datos > Conjunto de datos activo > Seleccionar el conjunto de datos activo

35

36

Gráficas > Diagrama de caja…

37

Gráficas > Gráfica XY…

38

39

Estadísticos > Tablas de contingencia > Tabla de doble entrada…

40

Gráficas > Gráfica de barras…

41

42

43

44

top related