xi jornadas nacionales de bioestadística ix seminario chileno de...
TRANSCRIPT
1
XI Jornadas Nacionales de Bioestadística
IX Seminario Chileno de Estadística Bayesiana
IV Encuentro Odontológico – Estadístico
Bioestadística Básica con Rcmdr
Instituto de Matemática y Física
Facultad de Ciencias de la Salud
Talca, 12 - 14 de enero de 2011.
Universidad de Talca – Campus Lircay – Auditorio FACE – http://inst-mat.utalca.cl/jornadasbioestadistica2011
2
AUSPICIAN
Organizan: Instituto de Matemática y Física, Facultad de Ciencias de la Salud, Universidad de Talca. Patrocinan: The
International Biometric Society, International Society for Bayesian Analysis. Auspician: Dirección de Investigación,
Universidad de Talca, Sociedad Chilena de Estadística, Universidad Católica del Maule, Universidad de Santiago de Chile,
Universidad de Concepción, Pontificia Universidad Católica de Chile, Proyecto MECESUP PUC0802, The University of
Adelaide, Oral-B, Colgate y Dentaid.
3
BIOESTADÍSTICA BÁSICA CON R-Commander (Rcmdr)
Juan Barrera y Alex Soto. Instituto de Matemática y Física. Universidad de Talca.
CONTENIDO
– Objetivo
– Bibliografía
– Introducción
– Instalación de R-Commander
– La organización de la información
– Estadística descriptiva
OBJETIVO
Presentar los aspectos fundamentales del manejo, análisis y representación gráfica de datos en R a través de la
interfaz R-Commander (Rcmdr).
BIBLIOGRAFÍA
Estadística Básica con R y R-Commander. A. J. Arriaza Gómez, F. Fernández Palacín, M. A. López Sánchez,
M. Muñoz Márquez, S. Pérez Plaza, A. Sánchez Navas. http://knuth.uca.es/moodle/course/view.php?id=37
INTRODUCCION
¿Qué es R?
“R es un lenguaje y ambiente computacional para la realización de gráficos y análisis estadístico”.
Usaremos R a través de su interfaz gráfica R-Commander, que se denotará abreviadamente como Rcmdr.
– R fue desarrollado por Dr. Ross Ihaka and Dr. Robert Gentleman (Dept. of Stats, Univ. Of Auckland) en
1992.
– La interfaz gráfica de usuario (GUI) Rcmdr pretende, en primera instancia, facilitar el manejo de R y, en
segundo lugar, servir como generador de instrucciones R.
– R-cmdr es uno de los mejores y más poderosos paquetes estadísticos.
– R-cmdr es totalmente gratuito.
4
¿Cuáles son los grandes atractivos de Rcmdr?
– Los gráficos de alta calidad.
– La capacidad de combinar, análisis específicos para cada situación.
– La capacidad de manipular y modificar datos y funciones.
– Las actualizaciones son frecuentes.
– En este momento se encuentra disponible la versión R 2.11.1 (29 junio 2010)
¿Cuántos usan Rcmdr?
No se puede estimar directamente ya que es un software “gratuito” que se baja directamente de varios sitios en
Internet.
5
¿Qué libros en estadística usan R?
¿Donde se encuentra información sobre R?
• Los manuales en el directorio de instalación con documentación http://www.cran.r-project.org/ (manuals)
- An introduction to R.
- The R language definition.
- Writing R extensions.
- R data import/export.
- R installation and administration.
- R Internals.
- The R Reference Index. • El sitio http://www.r-project.org/
•Pueden subscribirse a la lista de correo para actualizaciones de R (no Rcmdr)
https://www.stat.math.ethz.ch/mailman/listinfo/r-help.
• El Newsletter” de R: “Rnews”.
6
INSTALACIÓN DE R-Commander
La descarga de R en el equipo se efectúa desde: http://knuth.uca.es/R/doku.php. Seleccionar el link
Versión 2.11.1 Paquete R-UCA para Windows. Luego se procede con la ejecución, siguiendo las instrucciones.
Si se cierra Rcmdr (sin cerrar R) y requiere volver a cargarlo, se debe ejecutar la instrucción Commander().
LA ORGANIZACIÓN DE LA INFORMACIÓN
• La estadística y la calidad de los datos (Bioestadística, Erica Taucher)
“El estadístico ha dejado de ser un alquimista del cual se espera produzca oro a partir de cualquier material
sin valor. Es más bien un químico capaz de determinar exactamente cuánto contiene de valioso, y capaz
también de extraer esa cantidad y no más… Si es competente en su oficio, el valor de los resultados
dependerá exclusivamente de la calidad del material que se le ha entregado” (R.A. Fisher).
• Definiciones
Validez: se dice que una medida tiene validez si es indicativa del estado que se pretende medir. En otras
palabras, debería reflejar la verdad. Ejemplos: la fiebre puede no ser in indicador válido (suficiente) de
tifoidea; la ausencia de hijos puede no ser un indicador válido de esterilidad.
Error: diferencia entre la medida asignada a un objeto y su valor verdadero.
Observador: persona que interviene en el proceso de obtención de información desde la inspección,
interrogación, examen o medición del objeto, hasta el registro del dato.
Objeto o Unidad: es la menor división del material en estudio sometido a observación. Es un objeto
individual que puede ser materia de conocimiento por parte del observador. Recibe diferentes
denominaciones: elemento, individuo, unidad experimental, unidad de observación, caso, objeto, unidad
muestral, etc. Cuando la unidad es una persona, lo referimos como sujeto.
Variable: Característica del sujeto que puede tomar distintos valores en cada unidad. Por ejemplo, la estatura
de una persona: asignamos un número a cada persona.
Dato u Observación: Son los distintos estados en los que se puede encontrar una característica de un sujeto.
Estos pueden ser cualitativos (hombre, mujer) o cuantitativos (161cm).
7
Instrumento: es el medio utilizado para realizar la observación. Cuanto mayor sea el poder discriminatorio
del instrumento, tanto más precisa será la observación. Hay tres tipos principales de instrumentos:
- Aparatos: la medición se hace con un dispositivo mecánico. Ejemplo: básculas, termómetros.
- Humano: la medición la hacen las personas, con escasa o nula utilización de aparatos. Ejemplo:
auscultación del corazón.
- Combinación de humano y aparato: Ejemplo: interpretación de radiografías.
• Tipos de Variables
Una variable es una característica que cambia (varía) de unidad en unidad. Existen dos categorías o tipo de
variables:
Cualitativas: Los valores son identificados con palabras. Es aquella que expresa un atributo o característica
cuyos posibles valores se refieren a una cualidad presente o ausente. Los posibles valores son excluyentes.
Esta a su vez la podemos subdividir en:
◦ Nominal: Permite agrupar observaciones de acuerdo a una cualidad o atributo. No existe una relación de
orden.
◦ Ordinal: Permite agrupar observaciones de acuerdo a una cualidad o atributo cuyos valores tienen una
relación de orden.
Cuantitativas: Es aquella que podemos expresar numéricamente: edad, peso, nº de hijos, etc. Esta a su vez la
podemos subdividir en:
◦ Discreta: Es aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores
enteros.
◦ Continua: El número de valores posibles entre dos valores dados es infinito. Son el resultado de medir.
8
ACTIVAR R-Commander
Inicio > Todos los programas > R > R
Al activarse R-Commander mostrará tres ventanas:
- Ventana de instrucciones
- Ventana de resultados
- Mensajes
9
• Crear una base de datos
Datos > Nuevo conjunto de datos…
En ventana: Nuevo conjunto de datos > en Introducir el nombre del conjunto de
datos: “datos”. Solo caracteres (no numérico)
En ventana Editor de datos > con el botón izquierdo del mouse seleccione “var1”
10
En ventana Editor de variables > en Nombre de variable > “nombrevar1” y seleccionar tipo
(numeric ó carácter).
11
• Importar una base de datos
Datos > Importar datos > desde conjunto de datos Excel, Access o dBase…
En ventana: Importar datos desde Excel, Access o dBase > en Introducir el
nombre del conjunto de datos: “datos”. Solo caracteres (no numérico)
Si desea solo mirar los datos seleccione el botón Visualizar conjunto de datos.
12
R-Commander mostrará la plantilla de la siguiente manera:
Si desea editar los datos seleccione el botón Editar conjunto de datos.
R-Commander mostrará la plantilla de la siguiente manera:
Al importar los datos, R-Commander clasifica el tipo de variable automáticamente.
13
• La plantilla (matriz) de datos
Se define como la manera de organizar la información de un conjunto de n individuos de los cuales se obtienen
una serie de k características (variables) de igual o distinta naturaleza. Es importante tener en cuenta que la
calidad del análisis que se realice, va a depender de la habilidad suficiente para seleccionar las variables
necesarias del conjunto de individuos.
Los datos obtenidos se organizarán en una matriz n×k, donde cada fila representa a un individuo o registro y las
columnas a las características observadas o variables. Las columnas tendrán naturaleza homogénea, pudiendo
tratarse de variables nominales, dicotómicas o politómicas, presencias–ausencias, conteos, escalas de intervalo,
razones, etc. En ocasiones se añade una columna que se suele colocar en primer lugar y que asigna un nombre a
cada individuo; dicha columna recibe el nombre de variable etiqueta (Id).
• Exportar datos de R a Excel
Datos > Conjunto de datos activo > Exportar el conjunto de datos activo…
En ventana: Exportar el conjunto de datos activos > Aceptar
14
Inicio > Todos los programas > Excel > Abrir
15
16
17
ESTADÍSTICA DESCRIPTIVA
• Validación de la matriz de datos
Hay veces en que por distintos motivos la matriz de datos presenta casillas vacías, ello se debe a que no se ha
podido medir un dato o a que se ha perdido la observación. En otras ocasiones un dato presente en la matriz ha
sido depurado por presentar algún tipo de anomalía, como haber sido mal medido, mal transcrito a la matriz de
datos, etc. La identificación de estos elementos anómalos se realiza mediante un proceso de detección de
inconsistencias o de evaluación de valores extremos, muy grandes o muy pequeños, que determinará si
razonablemente pueden pertenecer al conjunto de datos. A veces se sustituye el valor depurado de individuo por
uno que sea congruente con el resto de caracteres del mismo, mediante técnicas que se conocen como de
imputación. Los espacios en blanco que definitivamente queden en la matriz se referirán como valores omitidos
o, más comunmente, como valores missing. En R estos valores se representan con NA (Not Available). En
función del tipo de análisis que se esté realizando, el procedimiento desestimará sólo el dato o todo el registro
completo.
Estadísticos > Resúmenes > Número de observaciones ausentes
18
Estadísticos > Resúmenes > Resúmenes numéricos
19
Gráficas > Diagrama de dispersión…
20
Datos > Modificar variables del conjunto de datos activo > Calcular una
nueva variable…
21
Estadísticos > Resúmenes > Resúmenes numéricos
22
23
Datos > Modificar variables del conjunto de datos activo > Recodificar
datos
Nota: el límite inferior corresponde al intervalo abierto y el superior al intervalo cerrado.
24
Estadísticos > Resúmenes > Distribución de frecuencias…
25
26
Gráficas > Gráfica de barras…
27
28
29
30
31
Datos > Modificar variables del conjunto de datos activo > Reordenar
niveles de factor…
32
33
Gráficas > Gráfica de sectores…
34
Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo…
Datos > Conjunto de datos activo > Seleccionar el conjunto de datos activo
35
36
Gráficas > Diagrama de caja…
37
Gráficas > Gráfica XY…
38
39
Estadísticos > Tablas de contingencia > Tabla de doble entrada…
40
Gráficas > Gráfica de barras…
41
42
43
44