analisis proyecto
TRANSCRIPT
ANÁLISIS DEL PROYECTO
I. Comparación de medias II. Análisis de dos variables categóricas
III. Análisis de correlación y modelo lineal
JUDIT ALSINA ROSSELL 1r Medicina
Judit Alsina 1r Medicina
I. COMPARACIÓN DE MEDIAS
I.I. Variable binaria y variable numérica
El primer análisis que se va a realizar será una comparación de medias entre una variable
categórica binaria, que en este caso es el sexo, y una variable cuantitativa como las horas
semanales de deporte.
Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro test
paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que nos
proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:
En este caso se puede ver que la
asimetría cobra unos valores de 6.8491
i 2.1155 los cuales son muy superiores
a uno y por lo tanto consideraremos
que hay una asimetría bastante
destacada.
Por este motivo, cuando se realize el
análisis sobre la comparación de
medias, utilizaremos el test de U de
Mann-Whitney, en lugar del t-student,
el cual es no paramétrico.
También se pueden observar la media
y los mínimos y máximos.
Una vez estudiada esta asimetría ya se puede realizar la comparación de medias. Para esto se
muestra seguidamente el gráfico de cajas y los datos que proporciona el test U de Mann-
Whitney.
Judit Alsina 1r Medicina
Si en la tabla de la izquierda se
observa el p-valor se pueder
ver que este cobra un valor de
0.0162 el cual es muy inferior a
0.05 lo que nos permite
rechazar la hipótesis nula que
era que existia una igualdad de
distribuciones. Por lo tanto,
este test ha permitido
comprobar que existe una
diferencia en la práctica de
deporte entre los dos sexos.
Para llegar a la conclusión de cual de los dos sexos es el que practica más deporte nos
fijaremos en las medianas. Si observamos estos valores vemos que son superiores en los
hombres, el doble en este caso. Por está razón, sacaremos como conclusión del análisis que
los hombres practican más horas de deporte semanales que las mujeres.
Judit Alsina 1r Medicina
I.II. Variable categórica de más de dos grupos y variable numérica
El segundo análisis que se va a realizar será una comparación de medias entre una variable
categórica, en este caso es de tres grupos, y una variable cuantitativa. Para este análisis las
variables seran la sensibilidad al PTC y el peso.
Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro test
paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que nos
proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:
En este caso se observan unos
valores un poco
contradictorios.
En el caso de la subvariable Sí,
muy intenso vemos como la
asímetria supera el límite que
considaríamos simétrico (1) y
por lo tanto diriamos que
sigue una distribución
asimétrica.
Por el contrario, las
subvariables Sí, un poco y No
tienen valores dentro del
rango simétrico (-1,1) y por
lo tanto consideraríamos que
siguen una distribución
simétrica.
Para poder realizar un análisis relacionando las tres subvariables asumiremos que el valor que
primeramente hemos considerado asimétrico sigue una distribución simétrica ya que sólo
varia unas decimas del valor límite.
También es importante comprovar si las varianzas son iguales. Para esto usaremos otra tabla
que nos proporciona el G-stat, la tabla de homocedasticidad.
Judit Alsina 1r Medicina
Ahora debemos fijarnos en el p-valor de Bartlett. En este caso el p-valor es muy poco inferior a
0,05 lo que se podria deber a a aproximación que hemos realizado antes en la asimetría. Por
este motivo asumiremos que las varianzas también son iguales.
Gracias a esta aproximación ahora ya podemos pasar a analizar los dados proporcionados por
ANOVA.
En la tabla superior se muestra el p-valor el cual nos va a indicar si la dos variables estan
relacionadas o si su relación se debe al azar. En esta situación, cobra un valor de 0.0192, muy
inferior a 0.05, lo que nos permite descartar la hipótesis nula y afirmar que hay diferencias
entre las distribuciones según el peso.
Si nos fijamos en el diagrama de cajas y lo relacionamos con lo mencionado en el anterior
párrafo podemos llegar a la conclusión que las personas con un peso mayor son más
propensas a tener el gen mutado y por lo tanto a no detectar el sabor el la tira de PTC.
Judit Alsina 1r Medicina
II. ANÁLISIS DOS VARIABLES CATEGÓRICAS
El siguiente estudio que se va a realizar será la comparación entre dos variables categóricas
como son el sexo y el consumo de alcohol. Para realizar este análisis nos fijaremos primero de
todo en la tabla de proporciones siguiente:
En la tabla anterior se pueden observar dos proporciones destacables.
La primera a destacar es la proporción de mujeres no consumidoras de alcohol respeto a los
hombres. Vemos como este porcentaje en mujeres es un 71.05%, muy superior al 28,95% del
de los hombres.
La segunda también destacable es la proporción de hombres que toman alcohol diariamente.
Este es de un 60,71%, superior a la proporción de las mujeres que es tan solo de 39,29%.
Para comprobar si estas proporciones diferentes se deben al azar o bien las variables están
relacionadas nos fijaremos en el análisis de Chi-cuadrado.
En la tabla superior se puede observar el p-valor de este análisis. En este caso cobra un valor
de 0.0651, mayor que 0.05 lo que no impide rechazar la hipótesis nula y por lo tanto tenemos
que asumir que no hay relación entre las dos variables y que la poca que podemos observar
es debida al azar.
Para poder considerar este p-valor correcto era importante que chi-cuadrado cumpliese sus
dos condiciones, las cuales se encuentran debajo de él en la tabla. En este caso vemos como
las dos se cumplen y por lo tanto el test es válido.
Judit Alsina 1r Medicina
III. ANÁLISIS DE CORRELACIÓN Y MODELO LINEAL
III.I. Peso y edad
A continuación se va a realizar un análisis de correlación, aplicando un modelo lineal, de dos
variables cuantitativas que son el peso y la edad.
Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro
coeficiente paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que
nos proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:
Una vez observada esta asimetría ya se puede estudiar la relación que se establece entre las
dos variables. Para esto se va a observar el modelo lineal junto con el p-valor y el coeficiente
de Spearman, por motivos expuestos anteriormente.
En este caso se puede ver que la asimetría
cobra unos valores de 1,1714 i 1,1112 los
cuales son superiores a uno y por lo tanto
consideraremos que hay una asimetría,
aunque no muy destacada.
Por este motivo, cuando se realize el análisis
sobre la correlación entre las dos variables, nos
fijaremos en el coeficiente de Spearman, no
paramétrico, en lugar del de Pearson.
También se pueden observar la media y los
mínimos y máximos.
Judit Alsina 1r Medicina
Primero de todo, para mostrar la relación en el modelo lineal entre las dos variables nos vamos
a fijar en la ecuación de la recta la cual es Peso (kg) = 58.1247 + 0.2316 * Edad (años). De esta
forma se observa que la pendiente es de 0.2316 lo que significa que por cada año que pasa el
peso aumenta un 0.23 aproximadamente. Además, suponiendo que existiese una edad 0 el
peso seria de 58, lo que correspondería a la ordenada al origen.
Por lo que respeta a la relación entre las dos variables debe mirarse el Rho de Spearman que
en este caso toma un valor de 0.2725. Como 0.2725 es mayor que 0.2 ya se podría intuir que
las dos variables están relacionadas. Además, como su valor es positivo esto significa que
cuando una aumenta, la otra también.
También se podría comentar que el coeficiente de determinación sólo es de un 8.70%, es
decir, que a partir de conocer la edad podríamos conocer un 8.70% de los pesos.
Para terminar de asegurar que es posible rechazar la hipótesis nula, la cual sería en este caso
que no hay relación entre las variables, se pueden observar los diferentes p-valores. Estos
toman valores de 0.0001 e inferiores, es decir, menores de 0.5, lo que nos permite rechazar de
forma segura la hipótesis nula.
Judit Alsina 1r Medicina
III.II. Caries obturadas y consumo de chocolate
Por último se va a realizar un segundo análisis de correlación, aplicando un modelo lineal, de
dos variables cuantitativas que son el número de caries obturadas y la el consumo de chocolate
amargo al mes.
Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro
coeficiente paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que
nos proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:
Una vez observada esta asimetría ya se puede estudiar la relación que se establece entre las
dos variables. Para esto se va a observar el modelo lineal junto con el p-valor y el coeficiente
de Spearman, por motivos expuestos anteriormente.
En este caso se puede ver que la
asimetría cobra unos valores de
2,8870 i 2,9719 los cuales son
superiores a uno y por lo tanto
consideraremos que hay una
asimetría, bastante destacada.
Por este motivo, cuando se
realize el análisis sobre la
correlación entre las dos
variables, nos fijaremos en el
coeficiente de Spearman, no
paramétrico, en lugar del de
Pearson.
También se pueden observar la
media y los mínimos y máximos.
Judit Alsina 1r Medicina
Primero de todo, para mostrar la relación en el modelo lineal entre las dos variables nos vamos
a fijar en la ecuación de la recta la cual es:
número de caries obturadas = 2.0463 + 0.0950 * consumo de chocolate amargo al mes.
De esta forma se observa que la pendiente es de 0.0950 lo que significa que por cada ración
de chocolate que se consume, el número de caries obturadas aumenta un 0.095. Además,
cuando el consumo de chocolate es nulo, el número de caries obturadas sería 2.0463, lo que
correspondería a la ordenada al origen. Esto podría dejar intuir que el hecho de no consumir
chocolate no eliminaría el riesgo de sufrir caries.
Por lo que respeta a la relación entre las dos variables debe mirarse el Rho de Spearman que
en este caso toma un valor de 0.1425. Como 0.1425 es inferior que 0,2 se podría descartar
que las dos variables estén relacionadas.
También se podría comentar que el coeficiente de determinación sólo es de un 3.89%, es
decir, que a partir de conocer el consumo de chocolate solo podríamos conocer un 3.89% del
número de caries obturadas.
Para terminar de asegurar que no es posible rechazar la hipótesis nula, la cual sería en este
caso que no hay relación entre las variables, se pueden observar los diferentes p-valores. En
este caso se produce una contradicción ya que el p-valor de Spearman es 0.0334, inferior de
0,05 lo que nos obligaría a rechazar la hipótesis nula que antes, con el Rho de Spearman
habíamos aceptado.
Por esta razón, de este análisis no se puede sacar una conclusión clara sobre la relación entre
las dos variables, aunque sí que se podría afirmar que si están relacionadas es por una relación
muy débil.