u5. relaciÓn entre variables o el mundo en dos … · • puede adoptar valores entre –1 y +1....

ºDISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I U5 – Relación entre variables o el mundo en dos dimensiones

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 1

U5. RELACIÓN ENTRE VARIABLES O EL MUNDO EN DOS DIMENSIONES

Albert Cobos: Doctor en Medicina. MSc Estadística Aplicada. Profesor de Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de Barcelona.

1. INTRODUCCIÓN

En unidades anteriores hemos visto cómo describir la distribución de una variable, ya sea cuantitativa (unidad 3) o cualitativa (unidad 4). En ocasiones puede ser interesante atender a lo que los estadísticos llaman la distribución conjunta de dos variables. El propósito suele ser el de evaluar si existe alguna relación entre ambas, esto es, si determinados valores de una de ellas tienden a asociarse con determinados valores de la otra.

Para estudiar la relación entre dos variables necesitaremos herramientas distintas dependiendo de las características de esas dos variables. Puede que ambas sean cuantitativas, que ambas sean cualitativas, o que haya una de cada tipo.



2. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS

Como siempre, la mejor manera de comenzar un análisis es intentando ‘visualizar’ el fenómeno que nos preocupa mediante un gráfico apropiado. Después de haber visualizado los datos, podremos obtener ciertas medidas de relación, como el coeficiente de correlación de Pearson, pero no sería prudente comenzar directamente con ellas. Cuando presentemos esta medidas veremos por qué.

2.1 Diagramas de dispersión

Para evaluar relaciones entre variables cuantitativas el gráfico adecuado es el diagrama de dispersión (scatterplot, en inglés).

En la figura 5.1 se muestra un diagrama de dispersión, elaborado con la opción Graphics>Scatter Plot de StatCrunch. Las variables cuya relación se investiga son las circunferencias del tórax y de la cintura de 248 hombres adultos. Cada uno de los dos ejes representa una variable. Cada individuo se representa mediante un punto (u otro símbolo), cuya situación viene determinada por el valor que presenta dicho individuo en las dos variables. Al representar todos los individuos se configura una nube de puntos, cuya forma y disposición permite evaluar la posible relación entre las variables.

En la figura 5.1 la nube de puntos dibuja un huso estrecho y alargado, de pendiente positiva (cuando, a medida que nos desplazamos hacia la derecha, también nos desplazamos hacia arriba, la pendiente es positiva; si nos desplazásemos hacia abajo, la pendiente sería negativa).

La forma y disposición de la nube de puntos traduce una clara relación entre las dos variables, porque los individuos que presentan valores bajos en una de ellas, también presentan valores bajos en la otra, y los que presentan valores altos en una, también presentan valores altos en la otra. Cuando ocurre esto, decimos que la relación es directa.

La estrechez del huso indica que esta relación es notablemente intensa: para un valor dado en una de las variables, la otra variable presenta valores que oscilan en un rango que es muy pequeño en relación al rango total de valores. Dicho de otro modo, si conocemos el valor de una de las variables para un individuo concreto, se reduce muchísimo el espectro de posibles valores que verosímilmente adoptará la otra variable en este individuo.

La figura 5.2 muestra el scatterplot para evaluar la relación entre las circunferencias de la muñeca y del bíceps. En este caso, la nube de puntos sigue mostrando una pendiente positiva, lo que indica una relación directa. Sin



embargo, el huso es mucho más ancho que en el caso anterior. Esto indica una relación de menor intensidad.

La figura 5.3 muestra el scatterplot de la edad y el peso. Más que un huso podríamos hablar de una banda horizontal. El eje principal de esta nube de puntos es horizontal (su pendiente es nula), lo que traduce una ausencia de relación o independencia entre edad y talla: los valores de talla no parecen variar a medida que aumenta la edad.

La figura 5.4 muestra una (débil) relación inversa entre la edad y la talla: se observa cierta tendencia a que los valores de la talla sean más bajos a medida que la edad aumenta.

Además de facilitar la evaluación de posibles relaciones entre variables, los diagramas de dispersión permiten identificar algunos otros fenómenos de interés. Por ejemplo, en la figura 5.5 se observan dos casos atípicos (outliers), probablemente debidos a edema maleolar. Otro fenómeno, por cierto nada infrecuente, es el que se observa en la figura 5.6. La variabilidad de los valores de circunferencia del muslo no es constante para todos los valores de circunferencia de la rodilla (en este caso, la variabilidad aumenta a medida que aumenta la circunferencia de rodilla). Este fenómeno se denomina heterocedasticidad. Cuando no ocurre (como en la figura 5.1, por ejemplo), se dice que hay homocedasticidad.

Cuando necesitemos investigar las relaciones entre un conjunto de (más de dos) variables, todas ellas cuantitativas, puede ser muy práctico construir una matriz de dispersiones (scatterplot matrix) como la que se muestra en la figura 5.7. En esta representación se muestran los scatterplots de todos los pares posibles de variables. Algunos programas incluyen los histogramas de cada variable en las casillas de la diagonal.

2.2 Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson (Pearson’s correlation coefficient, o también Product-moment correlation coefficient) es una medida de la relación lineal. ¿Qué quiere decir esto de la relación lineal? Veamos.

Dos variables pueden ser (probabilísticamente) independientes o, por el contrario, estar relacionadas. Si los valores que adopta de una de ellas no cambian a medida que cambian los de la otra, decimos que son independientes (los valores que adopta una de ellas son independientes del valor que adopta la otra). Si, por el contrario, los valores que adopta una de ellas cambian a medida que cambian los de la otra, decimos que están relacionadas.



En ese último caso, el ritmo de cambio puede ser constante o no. Si lo es, decimos que la relación es lineal. Si no lo es, decimos que la relación es no-lineal (no es lineal). Cuando no es lineal puede ser monótona (creciente o decreciente) o no serlo.

Las relaciones monótonas se caracterizan por que no presentan inversiones en el signo del cambio o, dicho de otro modo, no presentan máximos ni mínimos, aunque sí pueden presentar puntos de inflexión: son constantemente no-decrecientes o constantemente no-crecientes. Cuando una relación es creciente en algún tramo y decreciente en otro, decimos que es no-monótona (no es monótona). Lo anterior puede servir como algoritmo para observar diagramas de dispersión y se ilustra en la figura 5.8.

Vayamos ahora con el coeficiente de correlación de Pearson, que suele simbolizarse mediante la letra griega ρ (rho). De él hay que saber lo siguiente:

• Puede adoptar valores entre –1 y +1.

• Cuando dos variables son independientes, entonces ρ = 0, pero lo contrario no es necesariamente cierto: ρ = 0 no implica necesariamente independencia.

• Cuando dos variables presentan una relación lineal perfecta, entonces ρ = 1 si la relación es directa, y ρ = –1 si es inversa. Estos dos casos se ilustran en la figura 5.9a y en la figura 5.9b, respectivamente.

• Valores entre 0 y 1 (o entre 0 y –1) indican cierto grado de relación lineal directa (o inversa). Cuanto más próximo a 1 sea el valor absoluto de ρ, mayor es la intensidad de la relación lineal. Cuanto más próximo a cero, menor es la intensidad de la relación.

En consecuencia, el valor de ρ permite saber si existe (o en qué grado existe) cierta relación lineal entre dos variables, y por eso se dice que ρ es una medida de la relación lineal. El problema es que dos variables pueden presentar una relación perfecta pero no-lineal, como la de la figura 5.10, y el coeficiente ρ = 0. De modo que ρ = 0 no implica necesariamente independencia. Solo implica que, o bien hay independencia o bien hay una relación no-lineal no-monótona.

En el apartado siguiente se deriva el coeficiente ρ. Es interesante para comprender por qué y como consigue ρ medir el grado de relación lineal; y por qué es peligroso fiarse de ρ para evaluar la relación entre dos variables sin haber visto antes un diagrama de dispersión.



Por qué y cómo el coeficiente de correlación de Pearson mide la relación lineal

Si nuestro objetivo fuera el de conseguir un índice que midiese la relación lineal entre dos variables que llamaremos X e Y ¿Cómo podríamos construir este índice? Veamos.

En la figura 5.9a vimos una representación de una relación lineal perfecta. Sobre este diagrama, marcamos unas líneas, perpendiculares a cada eje, justo en el lugar determinado por la media de cada variable, tal como se ha hecho en la figura 5.11a. Estas lineas determinan cuatro cuadrantes. En el caso de una relación lineal perfecta todas las observaciones se sitúan en dos cuadrantes opuestos por el vértice.

Para cada una de las observaciones, calculamos el producto de las diferencias entre los valores de X e Y y sus medias respectivas (que simbolizaremos mX , mY), es decir,

(X – mX) · (Y – mY)

Tal como se ilustra en la figura figura 5.11b , este producto es positivo para toda observación situada en el cuadrante superior derecho, porque (X – mX) > 0 (dado que X > mX), y también (Y – mY) > 0 (dado que Y > mY). Para toda observación situada en el cuadrante inferior izquierdo, este producto también es positivo, porque ambos términos son negativos (seguramente recuerdan aquello de ‘menos por menos da más’).

Nótese que, si las observaciones se situaran en los cuadrantes superior izquierdo o inferior derecho, el producto tendría signo negativo (¡Adivine por qué!). De modo que el cuadrante en el que se sitúa una observación determina el signo del producto, tal como se ilustra en la figura 5.11c.

Ahora calculamos el promedio de estos productos, sumándolos y dividiendo por el número de observaciones, es decir,

Σn (X – mX) · (Y – mY) / n

donde Σn indica sumatorio de n términos (hay n observaciones y, por tanto, n productos) y n es el número de casos. Esta expresión se denomina covarianza de X e Y, y en los textos de estadística suele aparecer simbolizado COV(X,Y) o también σ(X,Y). Puesto que, para cualquier conjunto de observaciones, su denominador es un número fijo y positivo (n), el valor de la covarianza dependerá de su numerador, es decir, de la suma de productos. En consecuencia:

• Si predominan los productos positivos, la covarianza será positiva. Cuanto mayor el predominio, mayor será la covarianza.



• Si predominan los productos negativos, la covarianza será negativa. Cuanto mayor el predominio, menor será la covarianza.

• Si no predominan unos sobre los otros, los negativos se compensarán con los positivos y la covarianza será nula.

Por tanto, la covarianza es una medida de la relación lineal, puesto que su valor nos permite distinguir si existe o no relación lineal y de qué signo, tal como muestra la figura 5.11d.

El único problema de la covarianza es que depende de la unidades de medida en que se haya expresado X e Y. Por ejemplo, si X e Y fuesen longitudes expresadas en centímetros ¡Obtendríamos un valor de covarianza distinto que si las expresamos en metros! Este es un mal asunto y para remediarlo, se divide la covarianza por las desviaciones estándar de las dos variables, de forma que la medida que resulta es adimensional y por tanto no depende de las unidades de medida de X e Y:

ρ = σ(X,Y) / ( σX · σY )

Esta medida es el celebérrimo coeficiente de correlación de Pearson, que no es más que la covarianza estandarizada. Puesto que las desviaciones tipo del denominador son siempre valores positivos (por cierto ¿Sabe por qué? Pista: si la desviación tipo mide el grado de dispersión de las observaciones ¿Qué sentido tendría un valor negativo?), ρ tendrá el mismo signo que la covarianza y será tanto mayor en valor absoluto cuanto mayor sea la covarianza.

Como ya hemos comentado, cuando existe una relación lineal perfecta (de forma que todas las observaciones están alineadas sobre la misma recta), ρ = 1 si la relación es directa, y ρ = -1 si es inversa. Pero esto no ocurre nunca con datos reales. Veamos como se comporta ρ en algunos ejemplos reales.

Hemos reproducido los datos de la figura 5.1 en la figura 5.12, marcando los ejes definidos por las medias, y mostrando el valor del coeficiente de correlación. Obsérvese que, aunque la mayoría de las observaciones caen en los cuadrantes de signo positivo, algunas caen en los cuadrantes de signo negativo. En consecuencia, la covarianza no será tan alta como sería si todas las observaciones se situaran en los cuadrantes positivos (lo que solo ocurre si todas ellas están perfectamente alineadas sobre una recta), y el coeficiente de correlación será menor que 1.

En la figura 5.2, vimos una relación de menor intensidad que la anterior. De nuevo, hemos reproducido estos datos en la figura 5.13 tras marcar los ejes de las medias y calculando el coeficiente de correlación. En este caso, el predominio de las observaciones en los cuadrantes de sigo positivo es mucho menor que en el caso anterior, y también es menor el coeficiente de correlación.



Por último, veamos qué ocurre con los datos de la figura 5.3, en los que se aprecia independencia de las dos variables, reproducidos en la figura 5.14. No existe un predominio claro de observaciones en los cuadrantes de signo positivo o en los de signo negativo, por lo que el coeficiente de correlación es (casi) cero.

A través de los ejemplos anteriores hemos visto lo fácil que es ‘adivinar’ cuál será el valor aproximado de ρ al examinar un diagrama de dispersión. Basta imaginar los cuatro cuadrantes definidos por las medias de las dos variables y observar si las observaciones predominan más en cuadrantes de signo positivo o de signo negativo. Si predominan en los de signo negativo, entonces ρ < 1 (será negativo). Y viceversa. Si el predominio es escaso, ρ será próximo a cero. Si es muy marcado, el valor absoluto de ρ será próximo a 1.

Es posible que a estas alturas el lector se haya preguntado por qué decimos que el coeficiente de correlación es una medida de la relación lineal (en lugar de decir, simplemente, que es una medida de relación). En la figura 5.15 se aprecia lo que ocurre en el caso de relaciones perfectas no-lineales.



3. RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Cuando las dos variables cuya relación nos interesa estudiar son cualitativas, su distribución conjunta queda reflejada en una tabla de dos entradas, lo que los estadísticos llamamos una tabla de contingencia (contingencia significa enfrentamiento, de dos variables en este caso).

3.1 Tablas de contingencia

La posible relación entre el sexo y la incidencia de artrosis de columna lumbar (ACL) se evaluó en una serie de 206 pacientes que acudieron a urgencias por motivos distintos de patología lumbar. Tras valorar la presencia de signos radiológicos de artrosis en la columna lumbar, se obtuvieron los resultados que se muestran en la tabla de la figura 5.16.

En esta tabla se muestra la frecuencia (número de pacientes) con que se ha observado cada una de las cuatro combinaciones posibles de las dos variables. Por ejemplo, la casilla superior izquierda indica que en los 206 casos estudiados hay 77 hombres con signos de ACL. También se muestra las frecuencias marginales de ambas variables, es decir, los totales de fila y de columna.

A partir de estos datos ¿Cómo podríamos evaluar si existe relación entre el sexo y la ACL? Veamos. Si no existe relación, la frecuencia de ACL habría de ser parecida en ambos sexos. De modo que podemos comparar esta frecuencia en ambos sexos.

A partir de los datos de la tabla, es fácil obtener la frecuencia relativa (proporción) de casos con ACL tanto en hombres como en mujeres:

• Hombres: 77 / 104 = 0,74

• Mujeres: 49 / 102 = 0,48

Parece, pues, que la ACL fue menos frecuente en las 102 mujeres que en los 104 hombres estudiados. Nótese que las proporciones de ACL en hombres o en mujeres son distintas entre sí, y distintas también de la proporción marginal de ACL 126/206=0,61. En esta situación diremos que las dos variables están relacionadas. Con ello indicamos que la probabilidad de que se presenten determinados valores de una de ellas (p.ej., ACL=sí) depende del valor de la otra (sexo).

Podemos hacer este ejercicio siempre que deseemos averiguar si existe relación entre dos variables dicotómicas. Diremos que existe relación si la probabilidad (que estimamos mediante la frecuencia relativa) con que se presenten determinados valores de una de las variables cambia según cuál sea el valor de la otra variable. Por el contrario, diremos que ambas variables son



independientes si la probabilidad con que se presenten determinados valores de una de las variables es la misma sea cual sea el valor de la otra.

En la figura 5.17 se presentan diversas tablas en las que se aprecia independencia de las dos variables A y B. Nótese, tal como se indica en la figura 5.17, que cuando existe independencia, ocurren dos cosas curiosas. La primera es que da lo mismo comparar las proporciones en que se presenta un determinado valor de A entre los dos posibles valores de B, que lo contrario (comparar las proporciones de un determinado valor de B, entre los dos posibles valores de A): si en el primer caso son iguales, en el segundo también lo serán. La segunda cosa curiosa es que, si esas proporciones son iguales entre sí, también serán iguales a la proporción marginal.

La consecuencia de esta segunda cosa curiosa es que, si hay independencia, podemos reproducir las frecuencias observadas en cada casilla multiplicando los marginales de esa casilla (totales de fila y columna correspondientes a la casilla) y dividiendo por el número total de observaciones, tal como se ilustra en la figura 5.18.

Esta propiedad de la situación de independencia permite obtener una medida muy natural del grado en que unos datos se apartan de la situación de independencia.

3.2 Chi-cuadrado de Pearson (χ2)

Consideremos de nuevo los datos mostrados anteriormente sobre sexo y artrosis lumbar. En la tabla de la figura 5.19 hemos reproducido estos datos añadiendo en cada casilla los efectivos esperados en caso de que sexo y artrosis fueran independientes. Para cada casilla calculamos la diferencia entre los efectivos observados y los esperados bajo independencia, elevamos esta diferencia al cuadrado y dividimos por los efectivos esperados. Por último, sumamos el valor obtenido en cada casilla. El índice que queda definido por estas operaciones se conoce como Chi-cuadrado (o Ji-cuadrado) de Pearson y se simboliza χ2 (la letra griega chi o ji, elevada al cuadrado).

Si los datos de una tabla reflejan una situación de independencia perfecta, los efectivos observados y esperados coincidirán, y su diferencia será cero. Por tanto, el valor de este índice será cero. Pero a medida que nos alejamos de la situación de independencia, el valor de Chi-cuadrado aumenta. Por tanto, podemos interpretarlo como una medida de la distancia que nos aparta de la situación de independencia.

Una de las ventajas de la Chi-cuadrado es que puede utilizarse en tablas de contingencia con cualquier número de filas y de columnas. En el ejemplo del sexo y la artrosis lumbar, las dos variables enfrentadas en la tabla de



contingencia son dicotómicas y, en consecuencia, la tabla generada tiene dos filas y dos columnas (los estadísticos llaman a este tipo de tablas ‘tablas 2x2’).

3.3 Odds Ratio (OR)

Otra posibilidad muy interesante para medir la relación en una tabla de contingencia de dos filas y dos columnas es el índice conocido como odds ratio. Este término inglés, de difícil traducción, está relacionado con el término odds que apareció en la unidad didáctica 5. En realidad es una razón de odds pero, tal como se ilustra en la figura 5.20, se puede calcular fácilmente dividiendo los productos cruzados de los efectivos observados en la tabla (casilla superior izquierda por inferior derecha, dividido por casilla superior derecha por inferior izquierda).

El OR puede oscilar entre cero e infinito. En situaciones de independencia, las odds del numerador y del denominador son iguales, de modo que el OR vale 1. Cuando nos alejamos de la situación de independencia, el OR se aleja de 1, ya sea hacia el cero, o hacia infinito. El que lo haga en un sentido o en otro, sólo depende de qué odds hayamos puesto en el numerador y en el denominador, y también de cómo hayamos organizado la tabla. Por ejemplo, en la figura 5.20 hemos situado las odds de los hombres en el numerador y la de las mujeres en el denominador. Calculado de este modo, el OR = 3,08. De haberlo hecho al revés, el OR hubiera sido 1 / 3,08 = 0,32.



4. RELACIÓN ENTRE UNA VARIABLE CUALITATIVA Y UNA CUANTITATIVA

Hemos considerado hasta ahora los casos en que las dos variables cuya relación queremos estudiar son del mismo tipo: ambas cuantitativas o ambas cualitativas. ¿Qué ocurre si tenemos una de cada tipo?

Si se ha entendido que analizar la relación entre dos variables significa ver hasta qué punto los valores que se observan en una de ellas dependen del valor que adopta la otra no costará intuir la solución.

En la unidad didáctica 3, cuando nos ocupamos de la descripción de variables continuas, mostramos datos de esperanza de vida en una serie de países, para varones y para mujeres. En la figura 3.6 apreciamos que las mujeres presentan una distribución de valores de esperanza de vida ligeramente superior a la de los hombres. Por lo tanto, para poder saber si el valor de una variable cuantitativa (como la esperanza de vida) está relacionada con una variable cualitativa (como el sexo) o es independiente de ella, bastará comparar las distribuciones de la variable cuantitativa en los conjuntos definidos por las categorías de la variable cualitativa. Para hacer esta comparación podemos utilizar métodos gráficos o calcular índices de tendencia central (media, mediana), de dispersión (desviación tipo, varianza) o de posición (cuantiles).



5. ¿RELACIÓN CAUSAL O RELACIÓN ESPÚREA?

Una cuestión importante queda por comentar. En esta unidad hemos hablado mucho de relación entre dos variables y de cómo evaluarla. Sin embargo, no hemos hecho la precisión de que, cuando decimos relación, nos referimos a un tipo de relación concreto. Se trata de lo que llamamos relación probabilística (también se le llama dependencia estocástica). Queremos saber si, el hecho de que una variable presente un determinado valor, hace más probables determinados valores de la otra variable. Si no es así, decimos que hay independencia (probabilística). Si es así, decimos que hay relación (probabilística). Cuando esto ocurre, es un error garrafal pensar que esta relación es de tipo causal porque puede serlo o no. Veamos esto.

Supongan que salgo a la calle y me dirijo a las primeras 200 personas adultas que veo para preguntarles: ¿Lleva Ud. Pendientes? ¿Suele ir al mercado? Probablemente, la tabla de contingencia que enfrenta la respuesta obtenida a estas dos preguntas (si o no) sugeriría una relación entre llevar pendientes e ir al mercado. Dado el carácter del ejemplo, nadie interpretaría esta relación causalmente: tan ridículo sería pensar que los pendientes estimulan el afán por visitar mercados, como creer que ir al mercado promueve el gusto por las joyas. Además, el motivo por el que aparece esta relación se adivina rápido: las mujeres tienden a llevar pendientes más a menudo que los hombres (por lo menos en mi generación), y también tienden a ir más al mercado (sin comentarios). Esto explicaría las cosas: el sexo es en este caso una variable, no contemplada en el análisis, que sí está causalmente relacionada (¡por razones meramente educativas, claro!) con llevar pendientes e ir al mercado. En consecuencia, estas dos variables aparecen asociadas probabilísticamente. Este tipo de relaciones se conocen como relaciones espureas.

El ejemplo anterior debe servir para alertarnos de lo peligroso que es interpretar causalmente las asociaciones probabilísticas. A veces, a diferencia de lo que ocurre con el ejemplo de los pendientes y la compra, la posibilidad de una relación causal puede parecer razonable. En tales casos es fácil caer en la tentación de conferir un valor de verificación a los datos, para apoyar nuestra hipótesis de relación causal. Hay que resistirse firmemente a esta tentación. Por ejemplo, en los datos relativos a la artrosis lumbar y el sexo, podríamos pensar en base a ellos que la artrosis afecta menos a las mujeres que a los hombres. El hecho de que esto sea cierto o no, no es lo que se discute. Lo importante es entender que la asociación o relación probabilística constatada no proporciona en sí misma ninguna evidencia a favor de la hipótesis de causalidad. Podría ocurrir que la asociación observada en estos datos fuese debida a que las mujeres son más jóvenes que los hombres, y ello explicaría la menor incidencia de artrosis en las mujeres que revelan esos datos. El lector pensará que podríamos descartar esta posibilidad comparando las edades de las mujeres y de los hombres. Cierto. Pero la posibilidad de que exista alguna otra variable, quizás desconocida para nosotros, que explique la asociación, no podremos descartarla nunca.



6. ALGUNOS CONSEJOS

Cuando se trata de evaluar la posible relación entre dos variables cuantitativas...

• Comience siempre visualizando los datos. Obtenga un diagrama de dispersión y evalúe la posibilidad de relación inspeccionándolo.

• Sólo tras asegurarse de que existe una relación (aproximadamente) lineal o, al menos monótona (siempre creciente o siempre decreciente), tiene sentido calcular el coeficiente de correlación de Pearson ¡No se fíe nunca del coeficiente de correlación sin haber visto antes el diagrama de dispersión!

Si las variables son cualitativas

• Comience inspeccionando la tabla. Calcule las odds (o las proporciones) de una de las dos variables (no importa cuál), para cada una de las categorías definidas por la otra, y compárelas. Si se trata de una tabla 2x2, puede calcular el OR. En otro caso, mejor calcule la chi-cuadrado de Pearson.

Si una variable es cualitativa y otra cuantitativa...

• Obtenga un boxplot para comparar la distribución de la variable cuantitativa entre las distintas categorías de la variable cualitativa.

Pero sobre todo...

• Sea consciente que todo lo que pueden decirnos los datos es que existe una asociación o relación probabilística, pero esto no proporciona evidencia de una relación causal. Si usted quiere creer que se trata de una relación causal, debería poder argumentar la razón, y ésta nunca puede ser la mera constatación de una relación probabilística.



7. LECTURAS Y LINKS

Diagramas de dispersión y coeficiente de correlación

• Aprenda a estimar la correlación 'a ojo' a partir de un diagrama de dispersión

Pulse el botón Begin y aparecerá un diagrama de dispersión en una nueva ventana. Escoja el valor de correlación y pulse el botón Show r para ver si acertó. Si pulsa New Data, cambiará el diagrama de dispersión y puede intentarlo de nuevo.

• Para ver el efecto que tienen las observaciones extremas en el coeficiente de correlación (y en algo llamado recta de regresión, que no hemos explicado):

http://www.ruf.rice.edu/~lane/stat_sim/reg_by_eye/index.html

•

• Si necesita calcular el coeficiente de correlación en un conjunto de datos no muy extenso (hay que entrar los datos a mano), puede hacerlo rápidamente en esta página. Entre los datos, pulse Submit y obtendrá el coeficiente de correlación.

http://www.stat.sc.edu/~west/javahtml/Regression.html

• http://www.fon.hum.uva.nl/Service/Statistics/Correlation_coefficient.html

Tablas de contingencia, chi-cuadrado y odds ratio

• Análisis completo de tablas de contingencia 2x2 ¡Calcula todo lo imaginable a partir de una tabla 2x2! http://statpages.org/ctab2x2.html

• Y esta también: http://www.quantitativeskills.com/sisa/statistics/two2hlp.htm

• Para calcular el índice Chi-cuadrado en tablas de cualquier número de filas y columnas. Comience definiendo el nº de filas (rows) y de columnas (columns) y pulse el botón Submit. Aparecerá la tabla con el número de filas y columnas especificado. Rellene las casillas con las frecuencias observadas y pulse el botón Calculate Now: http://www.physics.csbsju.edu/stats/contingency_NROW_NCOLUMN_form.html

• Muy sencilla, para calcular Odds Ratios (y su intervalo de confianza, algo que explicaremos más adelante en este curso): http://www.hutchon.net/ConfidOR.htm

http://www.ruf.rice.edu/~lane/stat_sim/reg_by_eye/index.html�

http://www.fon.hum.uva.nl/Service/Statistics/Correlation_coefficient.html�

http://statpages.org/ctab2x2.html�

http://www.quantitativeskills.com/sisa/statistics/two2hlp.htm�

http://www.physics.csbsju.edu/stats/contingency_NROW_NCOLUMN_form.html�

http://www.physics.csbsju.edu/stats/contingency_NROW_NCOLUMN_form.html�

http://www.hutchon.net/ConfidOR.htm�



8. RESUMEN

En esta unidad hemos visto cómo describir la distribución conjunta de dos variables. Las técnicas empleadas dependen de las características de las dos variables de interés.

La distribución conjunta de dos variables cuantitativas se describe satisfactoriamente mediante un diagrama de dispersión (scatterplot), que permite apreciar si existe alguna relación entre las dos variables y, en caso afirmativo, la posible forma funcional de esta relación. Cuando la relación es aproximadamente lineal, el coeficiente de correlación de Pearson permite cuantificar el grado de asociación.

La distribución conjunta de dos variables cualitativas se describe mediante tablas de contingencia. A partir de estas tablas, se pueden calcular diversos estadísticos de uso frecuente, como chi-cuadrado de Pearson, y medidas de asociación como el Odds Ratio.

Cuando nos interesamos por la distribución conjunta de una variable cualitativa y una variable cuantitativa, basta describir la distribución de la variable cuantitativa para cada una de las categorías definidas por la variable cualitativa.

Hemos finalizado esta unidad con una la importante distinción entre relación probabilística y relación causal, advirtiendo que la constatación de una relación probabilística no permite, por sí misma, concluir la existencia de una relación causal.



9. EJERCICIOS

9.1 Ejercicio 1

En un artículo leemos que el coeficiente de correlación de dos variables que se han medido en un conjunto de 100 individuos es 0,0001. ¿ Cuál de las siguientes afirmaciones es correcta?

1. las variables no están relacionadas.

2. las variables son independientes.

3. las variables presentan una intensa relación lineal.

4. si las variables están relacionadas, la relación no es lineal.

5. ninguna de las anteriores afirmaciones es correcta.

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

9.2 Ejercicio 2

Con los datos que se facilitan en el fichero eje502.txt haga scatter plots de las variables Y1, Y2, Y3 e Y4 con X (es decir, Y1 con X, Y2 con X, Y3 con X e Y4 con X). Deduzca cuales son los respectivos coeficientes de correlación mediante la simple inspección de las nubes de puntos.

1. (Y1,X) = 0,98; (Y2,X) = -0,66; (Y3,X) = 0.37; (Y4,X) = 0,08

2. (Y1,X) = -0,98; (Y2,X) = 0,66; (Y3,X) = -0.77; (Y4,X) = 0,08

3. (Y1,X) = -0,98; (Y2,X) = 0,66; (Y3,X) = -0.37; (Y4,X) = -0,08

4. (Y1,X) = 0,98; (Y2,X) =-0,66; (Y3,X) = -0.37; (Y4,X) = 0,08

5. ninguna de las anteriores es correcta.




9.3 Ejercicio 3

Calcule el coeficiente de correlación con los valores de dos variables X e Y que se muestran seguidamente. Utilice la opción Simple Linear Regression de StatCrunch para obtener dicho coeficiente de correlación (ignore los demás resultados que le mostrará StatCrunch). Luego haga un scatterplot. ¿Cuánto vale el coeficiente de correlación y a qué atribuye dicho valor?.

Caso 1 2 3 4 5 6

X 3 2 4 1 5 4

Y 3,4 3,2 1,0 3,0 3,8 3,6

1. vale 0 y es debido a ausencia de relación entre X e Y.

2. vale 0 y es debido a ausencia de relación lineal entre X e Y.

3. vale 0 y es debido a una observación atípica.

4. vale 1 y traduce una relación lineal perfecta.

5. vale 1 y traduce una relación no-lineal perfecta .




9.4 Ejercicio 4

Estudie la relación entre el sexo y el hábito tabáquico a partir de los datos que se muestran en la tabla. Calcule las frecuencias esperadas en cada casilla bajo la hipótesis de independencia perfecta, el valor del índice Chi-cuadrado, y seleccione la opción más adecuada.

Fumadores Ex-fumadores No-fumadores

Hombres 45 17 38

Mujeres 29 7 64

1. las frecuencias observadas coinciden con las esperadas en todas las casillas y el valor de chi-cuadrado es 14,3.

2. las frecuencias observadas coinciden con las esperadas en todas las casillas y el valor de chi-cuadrado es 0.

3. el valor de chi-cuadrado es 14,3 y las frecuencias esperadas en cada categoría de tabaquismo difieren entre hombres y mujeres.

4. el valor de chi-cuadrado es 14,3 y las frecuencias esperadas de los hombres coinciden con las de las mujeres.

5. no se puede calcular el chi-cuadrado porque no se trata de una tabla 2x2.




9.5 Ejercicio 5

En una unidad de cuidados intensivos, se investigó la posible relación entre el nivel de conciencia de los pacientes al ingreso y el desenlace. De 185 pacientes que ingresaron conscientes, el 14,59 % murieron durante la estancia en UCI. De los 15 pacientes que ingresaron en coma, 2 sobrevivieron y fueron dados de alta. Determine las frecuencias observadas en cada una de las casillas de la tabla de contingencia que se muestra a continuación, calcule e interprete el odds ratio (OR) y seleccione la respuesta correcta.

Ingreso Consciente

Ingreso

en Coma

Sobrevive

Exitus

1. el OR es cero, lo que indica independencia perfecta entre el estado al ingreso y el desenlace.

2. el OR es 1 lo que indica relación perfecta entre el estado al ingreso y el desenlace.

3. el OR es 38 lo que indica que la probabilidad (o proporción) de exitus es 38 veces mayor si se ingresa en coma que si se ingresa consciente.

4. el OR es 38 lo que indica que la odds de exitus es 38 veces mayor si se ingresa en coma que si se ingresa consciente.

5. ninguna de las anteriores es correcta.




FIGURAS

F 5·1 Circunferencias de cintura y tórax

F 5·2 Circunferencias de muñeca y biceps



F 5·3 Edad y peso

F 5·4 Edad y talla



F 5·5 Circunferencia de tobillo y muslo

F 5·6 Circunferencia de rodilla y muslo



F 5·7 Matriz de dispersiones



F 5·8 Algoritmo para interpretar Scatterplots



F 5·8·1 Independencia



F 5·8·2 Relación Lineal



F 5·8·3 Relación No-Lineal Monótona



F 5·8·4 Relación No-Monótona

F 5·9a Relación lineal perfecta, directa



F 5·9b Relación lineal perfecta, inversa

F 5·10 Relación no-lineal perfecta



F 5·11a Cuadrantes definidos por las medidas X y de Y



F 5·11b Cuadrantes definidos po las medidas X y de Y



F 5·11c Signo del producto (X-mx)·(Y-my)



F 5·11d La Covarianza como medida de relación lineal



F 5·12 Circunferencias de cintura y tórax



F 5·13 Circunferencias de muñeca y biceps



F 5·14 Edad y peso



F 5·15 Relaciones perfectas no-lineales

F 5·16 Signos de artrosis de columna lumbar (ACL) en 206 pacientes, según sexo



F 5·17 Varias configuraciones que mestran independencia de A y B



F 5·18 Varias configuraciones que mestran independencia de A y B



F 5·19 Chi-cuadrado calculado con los datos de artrosis lumbar y sexo



F 5·20 Odds Ratio (OR) con los datos de artrosis lumbar y sexo

F 3·6 Esperanza de Vida en 191 Países

u5. relaciÓn entre variables o el mundo en dos … · • puede adoptar valores entre –1 y +1....

Documents