Conceptos Básicos para el uso del programa estadístico R
Patricia CaligariBiol 3425 - Zoología
Qué es R?• R es un grupo de programas integrados para la manipulación de
datos, cálculos y gráficos. Se puede extender bajando paquetes de software gratis.
• R fue desarrollado inicialmente por Ross Ihaka y Robert Gentleman de la Universidad de Auckland (New Zealand).
• Desde 1995 es distribuido gratuitamente bajo los términos de la licencia general GNU.
• El desarrollo de R se ha tornado en un esfuerzo colaborativo internacional de muchos voluntarios.
Donde obtengo el programa R?
http://www.r-project.org/
The R Project for Statistical Computing
Cómo se instala R?
• Se pueden bajar versiones para Windows, MacOS y Linux dehttp://cran.r-project.org
• Para instalar R para Windows, solo hay que hacer “double click” en el archivo .exe.
Conceptos básicos para el manejo del programa R
• Para correr R, solo hacer “double click” en el icono del “desktop”, o usar el menú “Start”.
Pantalla de R
Pantalla de R con script
• Para abrir una ventana de script Click en File, “new script” o “open script” ya existente.
• Para que realice el comando desde el script, luego de escribirlo se oprime Cntrl + R
• Para no perder los comandos se debe escribir todo en la ventana del script y luego salvarlo con el nombre, ejemplo: Alligator.R
• Para salir de R, escribe >q()
• Una ventana aparecerá con la pregunta: “Save workspace image?”
y los tres botones: “Yes”, “No” and “Cancel”.
Si la opción “No” es seleccionada, todos los objetos creados durante la sesión se perderán. Para salvar el workspace debe poner el nombre del archivo ejemplo: datos.RData
• Para obtener ayuda “online” se puede dar click en “Help” en la barra del menú.
• También se puede obtener ayuda en HTML con el comando > help.start().
• O para saber información sobre un comando en particular > help(command)
• Para citar R uso >citation()
Generalidades del programa R
• Las acciones se ejecutan a través de comandos • Reconoce diferencias entre mayúsculas y
minúsculas• No le gustan los espacios• Cada punto o coma es muy importante para
que el programa entienda y ejecute el comando
Cómo acomodar los datos en Excel
• Para exportar datos desde Excel se debe guardar el archivo como .csv (comma separated values).
• Para que R lea este archivo se debe usar el comando read.csv .
• Note que la opción por defecto es que toma la primer línea como “header” o encabezado.
• > Alligator = read.csv (file.choose())• > attach(Alligator)
• El archivo puede estar en forma de texto en Notepad o Wordpad con terminación .txt.
• Para que R lea este archivo tiene que usar el siguiente comando:
• latam= read.table (file.choose(),header=T)
• header = T indica que la primer línea son los nombres de las columnas.
Gráficos en R
• BoxplotComando: >plot(Alligator)
female male
0.7
0.8
0.9
1.0
1.1
1.2
sex
snou
t.ven
t
• Boxplot con color:
>plot(Alligator, col=3)
female male
0.7
0.8
0.9
1.0
1.1
1.2
sex
snou
t.ven
t
• Para poner dos gráficos juntos
>windows()>par(mfrow=c(1,2))>plot(Alligator,col=3)>stripchart(Alligator,col=2)
female male
0.7
0.8
0.9
1.0
1.1
1.2
sex
snou
t.ven
t
0.8 1.2 1.6 2.0
sex
snou
t.ven
t
• >Alligator4=read.csv(file.choose())• >Alligator4
• >attach(Alligator4)• >plot(snout.vent~pelvic.width,col=4)
• >boxplot(snout.vent,col=4,xlab="Snout Vent", ylab="Size mm")
0.7
0.8
0.9
1.0
1.1
1.2
Snout Vent
Siz
e m
m
• > boxplot(snout.vent,col=4,xlab="Snout Vent", ylab="Size mm",main="Alligator")
0.7
0.8
0.9
1.0
1.1
1.2
Alligator
Snout Vent
Siz
e m
m
“One way” o “Single factor” ANOVA• ANOVA es una forma de poner a prueba una hipótesis para limitar el error de
tipo I.
• El error de tipo I es cuando rechazamos la hipótesis nula cuando esta es verdadera, o sea obtenemos un falso positivo.
• Un resultado significativo (p-value menor 0.05) es suficiente para rechazar la hipótesis nula.
• En una típica aplicación de ANOVA, la hipótesis nula es que todos los grupos son muestras al azar de la misma población y que todos los tratamientos tienen el mismo efecto o ninguno.
• Rechazar la hipótesis nula implica que los tratamientos SI tienen algún efecto.
• ANOVA = Analysis of Variance
• ANOVA es una extension del “two-sample t test”, que pone a prueba la igualdad de las medias de dos grupos o más.
• En el ejemplo siguiente usamos la función >aov() para evaluar si el tamaño promedio de los alligators varía significativamente según el sexo.
> Alligator = read.csv (file.choose())
> Alligator
> attach(Alligator)> search()
[1] ".GlobalEnv" "Alligator" "package:stats" [4] "package:graphics" "package:grDevices" "package:utils" [7] "package:datasets" "package:methods" "Autoloads" [10] "package:base"
“snout-vent” es la variable de respuesta (se escribe a la izquierda de ~) “sex” es la variable explicativa (se escribe a la derecha de ~)Entonces, queremos ver si el tamaño de “snout-vent” se explica por la diferencia en sexo.La hipótesis nula es que la diferencia no se explica por la diferencia de sexo
> Alligator.mod=aov (snout.vent~sex)
> summary(Alligator.mod)
Df Sum Sq Mean Sq F value Pr(>F)
sex 1 0.0014 0.001445 0.054 0.819Residuals 18 0.4822 0.026789
El p-value es 0.819 por lo cual no es significativo y no puedo rechazar la hip nula. Entonces el sexo no explica
La diferencia en tamaño.
> detach (Alligator)
> Alligator4 = read.csv (file.choose())> Alligator4
> attach(Alligator4)
> search()
[1] ".GlobalEnv" "Alligator4" "package:stats" [4] "package:graphics" "package:grDevices" "package:utils"
[7] "package:datasets" "package:methods" "Autoloads" [10] "package:base"
> Alligator4.mod=aov(pelvic.width~snout.vent)> summary(Alligator4.mod)
Df Sum Sq Mean Sq F value Pr(>F)
snout.vent 1 25.842 25.842 50.35 1.29e-06 ***Residuals 18 9.238 0.513
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
• P-value es significativo < 0.05 entonces rechazo la hip nula.
Para consultar dudas:
• R para Principianteshttp://zoologylabs-uprrp.weebly.com/documentos.html
Preguntas?