Download - U6. ANÁLISIS DE ESTUDIOS DE FIABILIDAD Y VALIDEZ · el estado de ánimo del individuo. Los estudios de validación también se pueden clasificar como: a) validación de ... Por ejemplo,

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV

U6– Diseño y análisis de estudios de fiabilidad y validez

U6. ANÁLISIS DE ESTUDIOS DE FIABILIDAD Y VALIDEZ

Carrasco, Josep Lluís Doctor en Biometría y Estadística. Profesor lector. Unidad de

Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de

Barcelona.

1. INTRODUCCIÓN

En el diseño de una investigación clínica una de las consideraciones más críticas es la

elección de la principal respuesta o medida que se utilizará en el análisis relacionado

con el principal objetivo del estudio. Esta respuesta puede ser un evento clínico el cual

puede ser observado sin error (o aproximadamente sin error), como el fallecimiento o

la supervivencia en un período de tiempo. En otros casos la respuesta puede consistir

en una característica clínica basada en un juicio subjetivo (astenia, dolor, estado de

ánimo) o en una medida más objetiva (por ejemplo anemia, fiebre,

hipercolesterolemia). De igual modo la respuesta puede consistir en una medida

cuantitativa (como el recuento de leucocitos, la temperatura en grados Celsius, o la

concentración plasmática de colesterol) o cualitativa (como la aparición o la remisión

de un síntoma).

Así la obtención de respuestas objetivas se produce mediante medidas, pero ¿qué es

una medida? En la literatura se pueden encontrar diversas definiciones de “medida”.

Stevens (1946) define medida como “la asignación de números a objetos o eventos de

acuerdo a una regla”. Así, se podría decir que una medida es una abstracción que

intenta hacer inteligible y objetivo un fenómeno relacionado con un objeto o

característica. Tomemos como ejemplo el fenómeno “fiebre”. Como tal, este concepto

es una abstracción que se basa en el hecho de que la especie humana tiene una

temperatura corporal más o menos constante y que ésta aumenta considerablemente

como respuesta a elementos externos como una infección. ¿Cómo obtener una

medida de este fenómeno? Es decir, ¿cómo asignar números “objetivos”? Para ello es

necesario disponer de un instrumento de medida (termómetro) cuyos resultados se

encuentren calibrados mediante una escala de medida.

A su vez las medidas pueden ser directas o indirectas. Diremos que la medición es

directa, cuando dispongamos de un instrumento de medida que la obtiene



“directamente”, que sería el caso del ejemplo anterior sobre la fiebre. En cambio,

diremos que la medición es indirecta cuando realizando la medición de una variable,

podamos calcular otra distinta, por la que estamos interesados. Por ejemplo, si se el

estado de ánimo de un individuo o su calidad de vida no pueden ser medidos

(objetivamente) de forma directa. Pero se podría utilizar un cuestionario como

instrumento de medida indirecta. Lo que se estará midiendo “directamente” es la

puntuación en el cuestionario, y de esta puntuación se puede derivar “indirectamente”

el estado de ánimo del individuo.

Los estudios de validación también se pueden clasificar como: a) validación de

instrumentos de medida, en los que las medidas son típicamente cuantitativas; b)

validación de evaluadores o raters, en los que las medidas son cualitativas; c)

validación de cuestionarios, en los que se derivan medidas indirectas como resultado

de la combinación de diferentes ítems.

Independientemente de cómo se obtenga, es interesante comprobar la calidad de la

medida mediante la cuantificación de sus propiedades estadísticas como la validez y

la fiabilidad.

La validez hace referencia al grado en que una medida refleja o cuantifica el concepto

específico que el investigador está intentando medir, es decir, si realmente se está

midiendo aquello que se pretende. Que la medida de la respuesta sea válida es una

condición inherentemente necesaria en un ensayo clínico y habitualmente se

determina mediante el conocimiento del proceso biológico o fisiológico subyacente de

la condición bajo estudio.

El concepto fiabilidad se refiere hasta que punto un experimento, una prueba o un

procedimiento de medida, proporciona el mismo resultado en diferente pruebas, es

decir, si la medida es repetible.

Más adelante retomaremos estos conceptos y veremos qué tipos de validez y

fiabilidad se pueden definir.

Respecto a las técnica estadísticas que se utilizarán en esta unidad, la mayoría ya se

han tratado en módulos anteriores, por lo que el alumno debería estar familiarizado

con la prueba de McNemar (unidad 2, módulo II), la comparación de medias con datos



apareados y el ANOVA (unidad 3 del módulo II) y el análisis de regresión simple

(unidad 1 del módulo III).

2. DISEÑO DE ESTUDIOS DE FIABLIDAD Y VALIDEZ

2.1 MODELO Y ERRORES DE MEDIDA

Supongamos que se mide una característica repetidamente sobre un conjunto de

individuos de forma que Xij corresponde a la medida j tomada sobre el individuo i, con

j=1,..,k y i=1,..,n. Se define el modelo de medida como la siguiente ecuación:

Donde τi es el valor real del individuo i, es decir, aquello que se pretende medir, y eij es

el error de medida correspondiente a la medición j. Por lo tanto este modelo asume

que no se puede medir directamente la característica en estudio sin un cierto error.

Esto no debe sorprender ya que es la situación más habitual. Por ejemplo, cuando

decimos que un individuo tiene una temperatura corporal de 36,5 ºC, ¿podemos

asegurar realmente que tiene esta temperatura? ¿O en realidad tiene

aproximadamente 36,5 ºC?. La diferencia entre la medida obtenida u observada y el

valor real dependerá de las propiedades estadísticas del proceso de medida (validez y

fiabilidad).

Sobre el modelo de medida se pueden definir dos tipos de errores de medida: el error sistemático y el error aleatorio.

El error sistemático es aquél que se produce sistemáticamente al realizar la medición,

es decir, es un error común y de igual magnitud en todas las mediciones. A su vez el

error sistemático se puede clasificar como error sistemático constante y error

sistemático proporcional.

En términos del modelo de medida



Dónde α es el error sistemático constante, aquél error constante que se produce en

cada medida independientemente del valor real τi. En cambio β expresa el error

sistemático proporcional, aquél error que se produce en cada medida y cuya magnitud

es proporcional al valor real τi.

Por otro lado se puede producir un error que no siga ninguna regla, que no sea

siempre sistemáticamente el mismo, sino que en cada medición el error tenga una

magnitud diferente e impredecible. Cuando esto ocurre se dice que el error es

aleatorio y se correspondería con el término eij del modelo. En muchas ocasiones es

razonable asumir que los valores de este error siguen una ley de probabilidad Normal

de media 0 y una cierta varianza que designaremos como .

Ejemplo

En un ensayo clínico se pretende evaluar el efecto de un fármaco en el músculo

esquelético en pacientes neoplásicos con caquexia. Uno de los criterios de inclusión

es la pérdida del 10% de peso en 6 meses. Por lo tanto es necesario pesar a los

individuos en diversos momentos para concretar su pérdida de peso. Supongamos

que la balanza que se utilizase para tal fin tuviese error de medida de forma que no

diese exactamente el peso auténtico del individuo (valor real).

Si, para cualquier individuo, el resultado de cada medición fuese, por ejemplo, 2Kg

más que su peso real, nos encontraríamos frente a un error sistemático constante de

2Kg. También podría suceder que la medición o valor observado fuese un 10%

superior al peso real, de forma que un individuo que realmente pesase 60 Kg la

balanza diese un valor de 66Kg, para otro de 70Kg se obtuviese 77Kg, etc. En esta

situación estaríamos frente a un error sistemático proporcional.

Asimismo podría darse el caso en que el peso observado de un individuo fuese

diferente en sucesivas mediciones, cuando su peso real no ha podido variar entre

estas mediciones. Por ejemplo, que el peso real fuese de 60 Kg y en una medición se

obtiene 62Kg, en otra medición sucesiva 61 Kg, en otra 59 Kg, etc. En este caso nos

enfrentaríamos a un error de tipo aleatorio.



De hecho la realidad puede ser todavía más compleja, ya que habitualmente los

diferentes errores aparecen conjuntamente modificando todos ellos el valor real.

Para cuantificar el error de medida sistemático es necesario conocer (sin error o con

un error despreciable) el valor real mediante lo que se denomina un gold standard.

Obtener una medida sin error no es sencillo y puede impedir la evaluación del error

sistemático. En el ejemplo anterior se debería disponer de una balanza sin ningún tipo

de error, o lo que es más habitual, disponer de unas pesas de las cuales se conoce

exactamente el peso.

En lo que se refiere al error aleatorio, al contrario que con el error sistemático, es

posible cuantificar su magnitud (varianza) sin necesidad de un gold standard. Esto es

debido a que el error aleatorio se cuantifica mediante la variabilidad de mediciones

sucesivas del mismo sujeto, ya que el error sistemático es el mismo en las sucesivas

mediciones, y siempre y cuando el valor real se mantenga estable en estas

mediciones. Así que, lo que sí que es necesario es disponer de estas medidas

repetidas o réplicas.

Las técnicas para cuantificar la magnitud de estos errores, así como el número de

individuos y réplicas necesarios son aspectos que abordaremos en la siguiente

sección.

2.2 TIPOS DE VALIDEZ

Como ya se ha dicho en la introducción, la validez hace referencia al grado en que el

valor observado realmente mide la cantidad o característica que se desea medir.

No obstante la validez no es un concepto único, y puede aparecer bajo diferentes

significados dando lugar a diferentes tipos de validez. Algunos de estos tipos tienen

poco sentido en ciencias experimentales o biológicas, siendo más comunes en

ciencias sociales o en psicometría.

Tampoco debe confundirse la validez (externa e interna) de un estudio con la validez

instrumental. Recuerde que la validez externa de un estudio o investigación se refiere

a la extensión en que los resultados de un estudio son generalizables o transferibles.

Mientras que la validez interna de un estudio o investigación se refiere al rigor con el



que el estudio se ha llevado a cabo (diseño del estudio adecuado a los objetivos

propuestos, calidad de las medidas, metodología estadística apropiada, etc.).

A continuación se definen algunos tipos de validez que resultan interesantes para las

ciencias médicas:

• Validez de constructo. Hace referencia al grado de acuerdo entre un

instrumento de medida y el concepto teórico que se pretende medir. La

evaluación de este tipo de validez tiene poco sentido en ciencias

experimentales donde se utilizan medidas directas, dado que se supone que el

instrumento se ha construido ad hoc para medir aquel concepto teórico

deseado. Por ejemplo, el instrumento termómetro mide el concepto

temperatura, o el instrumento esfigmomanómetro mide el concepto presión

arterial. No obstante, este tipo de validez tiene mucho sentido en ciencias

psicológicas y sociales donde gran parte de las medidas son indirectas. Así nos

podríamos plantear si un cuestionario (instrumento) diseñado para medir

calidad de vida (concepto teórico) realmente mide este concepto. Para que un

instrumento tenga validez de constructo es necesario que se cumplan dos tipos

de validez: convergente y discriminante.

• Validez convergente y discriminante. Supongamos que se dispone de

diferentes indicadores proporcionados por el instrumento de medida. En un

cuestionario podrían ser las diferentes preguntas o set de preguntas. La validez

convergente se da cuando se observan altas correlaciones positivas entre

aquellos indicadores que teóricamente están directamente relacionados según

el concepto teórico. En cambio la validez discriminante o divergente se da

cuando se observan correlaciones no significativas entre aquellos indicadores

que, de acuerdo con el concepto teórico, no deberían estar relacionados.

• Validez de criterio. Se refiere a la capacidad de un instrumento para predecir

una respuesta. Por ejemplo, si el resultado obtenido en un test de personalidad

(instrumento) puede predecir el comportamiento futuro de un individuo

(respuesta). Este tipo de validez se puede dividir en validez concurrente y

predictiva.

• Validez concurrente. Hace referencia al grado en que las medidas obtenidas

mediante el instrumento correlacionan con otras medidas del mismo o de otro



concepto teórico relacionado. Por ejemplo, uno espera que la calidad de vida

se encuentre relacionada con el estado de ánimo. Así, si se facilitan a la vez

dos cuestionarios, uno que mide calidad de vida y el otro depresión, existirá

validez concurrente si las puntuaciones obtenidas con ambos cuestionarios

presentan una correlación elevada.

• Validez predictiva. Hace referencia al grado en que las medidas obtenidas

mediante el instrumento predicen (o correlacionan) otras medidas del mismo o

de otro concepto teórico relacionado. En este caso supongamos que se utiliza

un test de calidad de vida a una serie de individuos, y un tiempo después (por

ejemplo un año) se facilita el cuestionario sobre depresión. Si las puntuaciones

de ambos tests correlacionan diremos que el cuestionario de calidad de vida

tiene validez predictiva en relación con la depresión.

• Validez instrumental. Se refiere al grado en que un instrumento mide

realmente aquello que se pretende medir sin error o con un error despreciable.

Este es el tipo de validez que nos proponemos abordar y evaluar en este curso.

Para que el instrumento sea válido es necesario que sea exacto y preciso,

conceptos que deben ser ahora definidos.

La Food and Drug Administration define la falta de exactitud de una medida como la

desviación media respecto al valor real de diversas mediciones realizadas sobre el

mismo sujeto, de forma que el procedimiento de medida es exacto si esta desviación

media es nula. Dicho de otro modo, el procedimiento de medida es exacto si carece de

error sistemático.

Para cuantificar el error de medida sistemático es necesario disponer de una medida

sin error o gold standard. Como se verá en la sección siguiente, si se dispone de un

gold standard el error de medida sistemático puede ser corregido y conseguir un

instrumento de medida exacto. Al proceso de cuantificación y eliminación del error de

medida sistemático se le denomina calibración.

Se entiende por precisión el grado en que diferentes medidas dan resultados

similares. De hecho en ciencias experimentales precisión y fiabilidad son sinónimas

de forma que un instrumento es fiable si es preciso, y es preciso si es fiable. Así

evaluar la precisión es en realidad evaluar la fiabilidad del instrumento. Recordemos

que se definió fiabilidad como el grado de concordancia entre las diferentes medidas



realizadas con el mismo instrumento de medida. Así que, en términos del modelo de

medida, requiere ausencia de error aleatorio, es decir, que la varianza del error

aleatorio sea nula. Obviamente esto puede ser utópico, ya que habitualmente siempre

existirá un cierto error de medida aleatorio, y la pregunta que realmente interesa

responder es ¿cuál es la magnitud del error aleatorio? Si el error aleatorio es

insignificante o tiene un impacto pequeño en la medida resultante diremos que es

asumible y que el instrumento es fiable.

Es necesario aclarar que el sustantivo precisión puede utilizarse para referirse a

diferentes conceptos, así también se podría interpretar la precisión de un instrumento

como la unidad más pequeña que un instrumento es capaz de discriminar, por

ejemplo, la precisión de la balanza no sería la misma si las lecturas obtenidas se

encuentran en Kilogramos, gramos o nanogramos. En este caso se diría que cuanto

más pequeña es la unidad más preciso es el instrumento. En este caso precisión sería

un concepto más próximo a la exactitud que a la fiabilidad.

Respecto a la fiabilidad existen dos conceptos que vale la pena comentar ya que

acostumbran a aparecer en la literatura:

Reproducibilidad. Es la capacidad de una prueba, una medida o un experimento, de

ser exactamente reproducido o replicado. Así, requiere que exista un cierto grado de

fiabilidad entre los resultados (test, medida o experimento) utilizando diferentes

condiciones experimentales (operadores, instrumentos, laboratorios, etc.). Por

ejemplo, supongamos que se mide la presión arterial sistólica (PAS) con un mismo

esfigmomanómetro en una serie de individuos en dos momentos diferentes del día

(mañana y noche). El grado de fiabilidad entre las dos medidas nos indicaría la

reproducibilidad de la PAS dado que al menos una de las condiciones experimentales

(momento del día) ha variado. De hecho, si las dos mediciones se realizasen en el

mismo momento del día peor en días diferentes también nos referiríamos a la

reproducibilidad, ya que la PAS tiene una alta variabilidad intra-individuo y se pueden

producir cambios de PAS en períodos cortos de tiempo.

Repetibilidad. Se refiere a la capacidad de obtener los mismos resultados, ya sea

referida a un instrumento de medida o a un experimento, cuando se repite bajo las

mismas condiciones experimentales. El instrumento de medida o experimento se

denomina como repetible si la variabilidad de sus resultados en repetidas aplicaciones

es inferior a algún límite acordado.



El diseño de un estudio de repetibilidad debe contemplar que se debe utilizar siempre

el mismo instrumento o procedimiento de medida, lo que incluye también al mismo

observador, y bajo las mismas condiciones experimentales y localización, y que la

repetición de las medidas debe realizarse en un período razonablemente corto de

tiempo de forma que se pueda asumir que el valor real no ha variado .

Resumiendo, el diseño de un estudio de validez, en el que sea desea evaluar la

exactitud y precisión (fiabilidad) requiere disponer de un instrumento de medida con un

error despreciable o gold standard. No obstante sucede a menudo que no es posible

disponer de un gold standard y no se puede evaluar la validez del instrumento. En

esta situación, cómo se verá en la sección de análisis, aún sería posible evaluar la

fiabilidad del instrumento, realizando diferentes medidas repetidas sobre el mismo

sujeto en un período corto de tiempo en el que el valor real se mantenga estable.

2.3 CÁLCULO DEL TAMAÑO DE MUESTRA

En el diseño de cualquier estudio un punto clave es cuantificar el número de individuos

necesarios para obtener unos resultados adecuados para derivar las conclusiones

apropiadas. Como en cualquier investigación, el cálculo del tamaño de muestra está

ligado al método de análisis que se utilizará, y siempre con el objetivo de conseguir

unas estimaciones lo suficientemente precisas o alcanzar un nivel de potencia

estadística suficiente para llevar a cabo los contrastes de hipótesis. Como se verá en

la siguiente sección, los métodos son variados dependiendo de la naturaleza de los

datos, y por lo tanto el cálculo del tamaño muestral diferirá de un caso a otro. Así, en el

apartado de Lecturas Recomendables se dan algunas referencias sobre el cálculo de

tamaño muestral en referencia con algunos de los métodos estadísticos propuestos.

3. ANÁLISIS DE ESTUDIOS DE VALIDEZ Y FIABILIDAD

En esta sección se explicarán los diferentes métodos para evaluar la validez de un

instrumento de medida mediante la comparación con un gold standard. También

visitaremos el escenario en que no es posible disponer de un gold standard pero se

evalúa la fiabilidad del instrumento mediante la comparación de diferentes medidas

repetidas.



3.1 ANÁLÍSIS DE VALIDEZ: EVALUACIÓN DE LA EXACTITUD

Supongamos un experimento en el que la variable principal de estudio es la presión

arterial sistólica (PAS). Para realizar las mediciones de PAS se utilizará un

esfigmomanómetro del cual se desea evaluar su validez. Con este fin se diseña un

estudio en el que se incluyen 40 individuos a los cuales se les realizará una medición

simultánea de la PAS en mmHg mediante el aparato a validar (Device) y otro el cuál se

asume que mide la PAS con un error despreciable (Gold). Los datos se encuentran

disponibles en el fichero EJEMPLO PAS.TXT. Recuerde que para cargar los datos en

StatCrunch debe seguir los pasos Data Load Data From file, en el cuadro de

diálogo debe especificar la ubicación y nombre del fichero del fichero, el separador

“Tab” y que en la primera fila constan los nombres de las variables.

Como se ha explicado en la sección anterior, consideraremos el instrumento válido si

es exacto y preciso, esto es, carece de error sistemático y el error aleatorio no es

importante.

Para evaluar la exactitud se puede proceder de dos formas:

1) Cuantificarla globalmente mediante la diferencia de medias del instrumento a

validar y el gold standard.

2) Cuantificar la magnitud de cada error sistemático (constante y proporcional)

mediante un modelo de regresión lineal simple.

Comencemos por el primer caso. Para realizar la comparación de medias se debe

tener en cuenta que se trata de datos apareados, ya que cada individuo ha sido

medido mediante los dos instrumentos. Para obtener la estimación de la diferencia de

medias con StatrCrunch utilizaremos Stats T-Statistics Paired y aparecerá el

cuadro de diálogo que se muestra en la (Figura 1).

Una vez seleccionadas las variables se sigue hacia delante (opción Next) y se

selecciona la opción Confidence Level, es decir, realizaremos una estimación por

intervalo de la diferencia de medias con una confianza del 95% (opción por defecto).

Como resultado aparecerá la ventana que se observa en la (Figura 2).

La diferencia de medias entre el instrumento a validar y el gold standard es de 22.975

mmHg con un intervalo de confianza del 95% de 22.602 a 23.347.



Así que existe un cierto error sistemático que hace que, en media, el instrumento mida

aproximadamente unos 23 mmHg por encima del valor real. El intervalo de confianza

no incluye el cero (situación de no error sistemático) y los límites del intervalo nos

indican que el error sistemático puede llegar a ser aproximadamente de 23.35 mmHg.

Por lo tanto este error se considera que existe (no es diferente de 0) y no es

despreciable ya que puede situarse en valores alejados de 0.

Pero, ¿este error sistemático es constante o proporcional al valor real? La respuesta a

esta pregunta nos lleva al segundo procedimiento, el modelo de regresión lineal

simple. El modelo que se estimará es

Dónde α indica el error sistemático constante, β el error sistemático proporcional y e el

error aleatorio. Para estimar los parámetros de la recta de regresión con StatCrunch

debemos proceder mediante Stats Regression Simple Linear y aparece el

cuadro de diálogo que se muestra en la Figura 3. Recuerde que la variable GOLD es

la variable X (independiente) y DEVICE es la variable Y (dependiente). Desde aquí ya

podemos picar la opción Calculate ya que el resto de opciones no son necesarias

para este análisis. El resultado se muestra en la (Figura 4).

La recta de regresión estimada es (ver columna Estimate)

Esto indica que el instrumento constantemente da un valor superior al valor real en

13.126 mmHG más un valor proporcionalmente superior en 1.076 veces o, dicho de

otro modo, un 7,6% mayor.

En la Figura 4 no se muestra el intervalo de confianza para cada parámetro por lo que

no se puede evaluar la relevancia de cada tipo de error. Recuerde que en la situación

ideal de ausencia de error sistemático � debería ser igual a 0 y β igual a 1. No

obstante el output de StatCrunch si que nos ofrece el error estándar de la estimación

(columna Std. Err.) con lo que se puede calcular el intervalo de confianza del 95%

como (aproximadamente)



Así el intervalo de confianza para el error sistemático constante es 4.279 a 21.973, que

no incluye el valor 0. Por lo tanto el instrumento tiene un problema de error sistemático

constante y este puede llegar a ser de una magnitud de 21.973 mmHG.

El intervalo de confianza correspondiente al error sistemático proporcional es 1.008 a

1.144, que no incluye el 1. Por lo tanto el instrumento también tiene un problema de un

cierto error sistemático proporcional, el cuál puede llegar a tener una magnitud de

1.144, es decir, que el instrumento de lecturas un 14,4% superiores al valor real.

No obstante, y tal como se explicó en la sección anterior, el error sistemático puede

ser corregido mediante la calibración del instrumento. Para ello utilizaremos las

estimaciones de la regresión lineal simple. Las medias serán corregidas mediante la

operación:

Para realizar esta operación con StatCrunch debemos ir a Data�Compute expression y completar la expresión tal como aparece en la Figura 5. Como resultado

una nueva variable aparecerá en StatCrunch cuyo nombre será igual a la expresión.

Si repetimos los análisis anteriores con esta nueva variable, el instrumento calibrado,

se puede comprobar que ahora la diferencia de medias es prácticamente nula (Figura

6) y que las estimaciones de la recta de regresión son las apropiadas, ordenada en el

origen de 0 y pendiente de 1 (Figura 7).

3.2 ANÁLISIS DE VALIDEZ: EVALUACIÓN DE LA FIABILIDAD

La evaluación de la fiabilidad implica analizar la magnitud de la varianza del error

aleatorio. Este análisis se puede llevar a cabo de dos maneras:

1) Valorando hasta cuanto puede variar una medida sobre un mismo individuo.

Para ello se aproxima un intervalo de probabilidad del 95% como

donde es la desviación típica del error aleatorio. El intervalo resultante



contiene aproximadamente el 95% de los posibles valores del error aleatorio de

medición. Retomando el ejemplo anterior, en la Figura 4 aparece un valor con

la etiqueta “Estimate of the standard error deviation”. Se trata de la estimación

de , así el intervalo de predicción es:

Cuya interpretación es que las medidas obtenidas mediante el instrumento

evaluado (el esfigmomanómetro en este caso) tienen una diferencia absoluta

respecto al valor real que, en la mayoría de los casos (aproximadamente el

95%), es inferior o igual a 2.22 mmHg. Corresponde al investigador determinar

si esta diferencia es sustantiva como para considerar no válido el instrumento .

En este caso, posiblemente podría considerarse que la fiabilidad es aceptable,

ya que 2.22 mmHg está por debajo de lo que habitualmente se considera la

mínima diferencia relevante (5 mmHg).

El intervalo de predicción también podría calcularse para el instrumento

calibrado mediante la estimación de la Figura 7. En este caso:

Este valor se puede considerar más apropiado desde el punto de vista de

aplicabilidad del instrumento, ya que es razonable suponer que el instrumento

se utilizará una vez corregido el error de medida sistemático. En cambio, el

primer valor tiene más sentido desde el punto de vista de análisis del error del

instrumento, ya que permite compararlo con los errores sistemáticos.

2) Se puede dar el caso de que no sea sencillo de interpretar la magnitud del error

aleatorio en las unidades de medida del instrumento (mmHg en el ejemplo) y

no se pueda tomar una decisión sobre la fiabilidad del instrumento. En este

caso es más apropiado utilizar un índice adimensional (sin unidades de

medida) que evalúe el grado de fiabilidad en una escala de 0 a 1. Este índice

es el llamado coeficiente de correlación intraclase o coeficiente de fiabilidad.

El coeficiente de fiabilidad se define como el cociente



Por lo tanto nos indica la proporción que representan los valores reales respecto a los

valores observados. y se interpreta como la proporción de la medida (X) que no es

error aleatorio, es decir, que es medida real (τ).Idealmente debe utilizarse en ausencia

de error sistemático por lo que utilizaremos las estimaciones que aparecen en la

Figura 7.

Las varianzas correspondientes las obtendremos mediante el cociente SS/DF de los

valores que aparecen en la tabla “Analysis of variance table for regression model”. Así

la varianza del error resulta de

Y la varianza total (X)

La estimación del coeficiente de correlación intraclase es

Este coeficiente se puede expresar en tanto por ciento de forma que diremos que la

fiabilidad es del 96.22%, lo que indica un alto grado de fiabilidad. La interpretación del

coeficiente de correlación intraclase se puede realizar en base a la relación mostrada

en la Tabla 1.



3.3 ANÁLISIS DE FIABLIDAD EN AUSENCIA DE GOLD STANDARD

A menudo ocurre que en un experimento en concreto no es posible disponer de un

instrumento de medida con un error despreciable cuyas medidas puedan ser utilizadas

de referencia para compararlas con aquellas que resulten de utilizar el instrumento que

se desea evaluar.

En esta situación no puede evaluarse el error de medida sistemático, pero todavía es

posible analizar el error de medida aleatorio y así la fiabilidad. Para ello es necesario

disponer de medidas repetidas realizadas con el instrumento a evaluar sobre los

mismos individuos y en un espacio corto de tiempo (idealmente lo suficientemente

corto para que el valor real no varíe).

Con el fin de evaluar la fiabilidad se calcularan la varianza del error aleatorio y el

coeficiente de correlación intraclase. Para ello, y en este contexto, es necesario utilizar

un análisis de la varianza (ANOVA) de una vía.

Cálculo de ANOVA de una vía

Supongamos que se dispone de una muestra de n individuos, y que a cada uno de

ellos se les mide la variable de interés repetidamente k veces. Designaremos cada una

de estas medidas para el individuo i como Yi1, Yi2,…,Yik. El proceso de estimación es

el siguiente:

1) Calcular la media total de todos los valores. Llamaremos a este valor media

total (MT).

2) A cada medida repetida le restaremos la media total y llamaremos al resultado

dij.



3) Se eleva al cuadrado cada dij y se suman todos. Al resultado le llamamos

“suma de cuadrados totales” (SST).

4) Ahora calcularemos la media de las medidas de cada individuo, de forma que

deben resultar n medias. Designaremos a estos valores como medias

individuales (MID)

5) Se calcula la desviación de cada valor respecto a la media individual

correspondiente y a esta desviación la llamaremos DI.

6) Se eleva al cuadrado las DI y se suman todos los valores, obteniéndose la

“suma de cuadrados del error”.

7) A continuación se calcula la suma de cuadrados “entre-individuos” o SSB, que

se puede obtener como diferencia entre SST y SSE.

8) Finalmente se calcula la media de cuadrados dividiendo casa suma de

cuadrados entre sus grados de libertad. En la tabla 2 se muestra un resumen

de la tabla ANOVA correspondiente.

MSE es la estimación de la varianza del error aleatorio y el estimador del coeficiente

de correlación intraclase es



Continuando con el ejemplo anterior, en el fichero de Excel EJEMPLO PAS 2.xls

dispone de los datos correspondientes a dos medidas de la presión arterial sistólica

realizados con el esfigmomanómetro que se deseaba evaluar.

La primera columna “id” hace referencia a la identificación del individuo. Las columnas

“device” y “device2” son las dos medidas repetidas de presión arterial sistólica. Las

columnas D y E corresponden a las de cada repetición. La siguiente columna

corresponde a la media de cada individuo (MID), y en las columnas G y H se ha

calculado para cada medida repetida. Con estos datos la estimación de la

varianza del error aleatorio es de 1.275 mientras que la estimación del coeficiente de

correlación intraclase es de 0.9607, es decir, se estima una fiabilidad del 96.07%.

3.4 ANÁLISIS DE DATOS CUALITATIVOS

En esta sección visitaremos el escenario en que las mediciones se realizan en una

escala cualitativa. Los conceptos son similares a los expuestos hasta ahora, validez,

exactitud, fiabilidad, etc. Pero debido al inevitable cambio de modelo de medida debido

a la naturaleza cualitativa de los datos, lo que sí que cambiará será el método de

análisis.

Como ejemplo ilustrativo utilizaremos datos hipotéticos de pacientes con cáncer de

próstata. A cada uno de los pacientes se les valora el estado en que se encuentra la

neoplasia (Avanzado, Localizado) mediante ultrasonidos (instrumento de medida a

evaluar) y mediante un estudio anatomopatológico (gold estándar). El resumen de los

datos se encuentra en la Tabla 3.

Para que el instrumento o método de medida basado en ultrasonidos sea válido debe

evaluarse su exactitud y fiabilidad.



La exactitud en el caso cualitativo comporta que haya una cierta igualdad de

probabilidades, es decir, que ambos métodos de medida clasifiquen con igual

probabilidad a los individuos como Avanzado (o Localizado). Al tratarse de datos

binarios es indiferente si la comparación se realiza sobre la probabilidad de Avanzado

o de Localizado, ya que estas probabilidades son complementarias y la igualdad de la

probabilidad de Avanzado entre los dos métodos comporta igualdad de la probabilidad

de Localizado.

Las estimaciones de la probabilidad de “Avanzado” para cada método se pueden

extraer de la Tabla 3. Así, con el método de Ultrasonidos se ha clasificado como

“Avanzado” a 95 de 245 individuos, dando una proporción de 95/245=0.387. En el

caso del estudio patológico esta proporción es de 105/245=0.428. ¿Se pueden

considerar estas proporciones diferentes? Las estimaciones lo son, pero ¿y a nivel

poblacional? Para contestar a estas cuestiones debemos realizar un contraste de

hipótesis para proporciones apareadas. Este contraste se resuelve con la prueba de

McNemar. Diversos paquetes estadísticos (SAS, SPSS,…) tienen implementada esta

prueba, y también se vio como resolverla con StatCrunch en este máster (unidad 2 del

módulo II) De hecho su cálculo no es complicado y también podría realizarse con una

hoja de Excel. Otra alternativa es el uso de calculadora estadísticas disponibles en

internet como QuickCalcs (http://www.graphpad.com/quickcalcs/index.cfm). Es esta

última opción la que usaremos para resolver el contraste.

Al acceder a QuickCalcs nos aparecen diversas opciones dependiendo del análisis

que deseemos realizar. En el caso que nos ocupa elegiremos la opción Categorical Data y en la siguiente pantalla McNemar's test to analyze a matched case-control study. Ahora se trata de completar las casillas con las frecuencias adecuadas. El

programa utiliza las etiquetas “Yes” y “No” que simplemente debemos trasladar a

nuestro ejemplo. Así, por ejemplo, “Yes” podría identificar a “Avanzado” y “No” a

“Localizado”. La (Figura 8) muestra la pantalla con los datos introducidos. A

continuación apretaremos en el botón “Calculate” y aparecerán diversos resultados.

Bajo la etiqueta P-value se lee “The two-tailed P value equals 0.3908”, se refiere al P-

valor asociado al contraste de igualdad de proporciones. Utilizando un nivel de

significación α del 5%, no se rechaza la hipótesis de igualdad.

http://www.graphpad.com/quickcalcs/index.cfm



Para la evaluación de la fiabilidad utilizaremos el coeficiente phi. La interpretación de

este coeficiente es similar al coeficiente de correlación intraclase. Su cálculo se basa

en el estadístico chi-cuadrado de Pearson , de forma que

Donde n es el número de individuos, n=245 en nuestro ejemplo.

Para obtener el valor del estadístico chi-cuadrado de Pearson también podemos

utilizar QuickCalcs con la opción Fisher's and chi-square. Analyze a 2x2 contingency table. Una vez elegida esta opción aparecerá una pantalla en la que

deben implementarse las frecuencias observadas. El test que se debe elegir es Chi-square without Yates' correction y respecto a que P-valor se debe calcular (Two-

tailed o One-tailed) es irrelevante, porque lo único que queremos obtener es el valor

del estadístico. En la siguiente pantalla aparece el valor del estadístico chi cuadrado

que es de 1.289. Así el coeficiente phi resultante es

El valor del coeficiente phi es muy bajo indicando que la fiabilidad es muy mala, con lo

que se concluye que método de ultrasonidos no es válido y requiere una revisión.

Es posible evaluar agregadamente la exactitud y la fiabilidad con un único análisis,

mediante el llamado índice de concordancia kappa. Este índice mide concordancia

entre variables cualitativas, lo que aplicado a nuestro ejemplo significa que evaluará la

concordancia entre el método de ultrasonidos y el estudio patológico. La escala de

valores y su interpretación es similar a la del coeficiente de correlación intraclase, de

modo que, para considerar el método de medida válido al compararlo con el gold

standard, es necesario obtener un valor del índice elevado (por encima de 0.9).

Para calcular este índice utilizaremos de nuevo QuickCalcs. En este caso se debe

elegir la opción Kappa. Quantify interrater agreement y entrar las frecuencias

correspondientes tal como se muestra en la Figura 10. Calculamos el índice (Botón



“Calculate now”) y se obtiene un valor de 0.072, que indica una concordancia

despreciable entre los dos métodos.

El resultado que hemos obtenido utilizando el coeficiente kappa es coherente con lo

observado antes al usar la prueba de McNemar y el coeficiente phi. Las proporciones

no eran significativamente diferentes y en cambio la fiabilidad era muy pobre, de ahí

que la estimación del índice kappa sea similar al valor de phi.

Como en el caso cuantitativo, también podría darse la situación de no disponer de un

gold estándar. En tal escenario sólo será posible evaluar la fiabilidad del método de

medida tomando mediciones repetidamente. Si se toman dos mediciones se puede

evaluar la fiabilidad utilizando el coeficiente phi usando como variables el resultado de

cada medición. También se podría utilizar el índice kappa y comprobar cómo

concuerdan las dos mediciones, pero aquí nos podemos encontrar con un problema.

Al utilizar el mismo método de medida en dos mediciones es absurdo pensar que la

proporción poblacional de cada categoría pueda variar de una medición a otra, pero en

una muestra sí que puede suceder. Esta variabilidad de la proporción será tenida en

cuenta por el índice kappa dando un valor algo inferior al real. Esta situación se ha

corregido definiendo un índice llamado intraclass kappa, pero que creemos que su

definición va más allá de los objetivos de este curso. En cualquier caso, en las lecturas

recomendables se incluyen referencias en las que se puede explorar esta posibilidad y

abordar otras situaciones como variables cualitativas con más de dos categorías y/o

medidas en una escala ordinal.

3.5 ANÁLISIS DE CUESTIONARIOS

En este apartado visitaremos brevemente el caso de medidas indirectas obtenidas

mediante un cuestionario. Esta situación es bastante habitual en investigaciones

médicas en las que se evalúan aspectos relacionados con la calidad de vida, salud

mental o satisfacción. A menudo el resultado de estos cuestionarios consiste en una

puntuación derivada de las respuestas a cada ítem que compone el cuestionario .Dado

que esta puntuación es una variable cuantitativa se podrían aplicar los mismos

métodos expuestos anteriormente para evaluar la exactitud y precisión de la medida



en relación con la validez instrumental. No obstante, al tratarse de medidas indirectas,

es interesante evaluar otros tipos de validez. En esta sección se mencionaran

brevemente algunas de estas técnicas sin entrar en su proceso de cálculo.

La validez de constructo se evalúa mediante modelos factoriales confirmatorios. Estos

modelos pretenden replicar el modelo que relaciona los indicadores del cuestionario

(ítems o sets de ítems) con los conceptos teóricos subyacentes en el cuestionario.

También es interesante comprobar la consistencia interna del cuestionario, concepto

relacionado con la fiabilidad del mismo. El estadístico más ampliamente utilizado para

medir la consistencia interna es la alpha de Cronbach. Este estadístico evalúa la

fiabilidad de una serie de ítems en la medición de un concepto teórico. Se basa en la

correlación entre los ítems, de forma que a mayor correlación mejor medirán el

concepto, pero asumiendo que sólo existe un concepto subyacente. En realidad tanto

su expresión como interpretación es similar a la del coeficiente de correlación

intraclase, tomando valores entre 0 y 1. Una regla de decisión común es considerar

que un valor entre 0.6 y 0.7 indica una fiabilidad aceptable, valores por encima de 0.8

indican una buena fiabilidad. No obstante, valores por encima de 0.95 indicarían que la

correlación entre los ítems es tan elevada que probablemente alguno (o algunos) son

redundantes y no aportan información.

Para implementar tanto el modelo factorial confirmatorio como la alpha de Cronbach

es necesario disponer de un paquete estadístico adecuado como SPSS o SAS.

4. LECTURAS RECOMENDABLES

• Stevens, S.S. (1946). On the theory of scales of measurement. Science, 103, 677-680. Para saber más sobre la definición formal de medida y escalas de medida.

• Mc Dowell I, Newell C. (1996). Measuring health: a guide to rating scales and questionnaires. New York: Oxford University Press.

Un referente sobre validación de instrumentos de medida.

• Lachin, J.M. (2004). The role of measurement reliability in clinical trials. Clinical Trials, 1: 553-566.



Resumen práctico fiabilidad de medidas con aplicación a ensayos clínicos. Aporta aspectos inferenciales sobre el coeficiente de correlación intraclase.

• Shoukri, M.M. (2004). Measures of Interobserver Agreement. Chapman & Hall/ CRC

Para aquellos que quieran saber más sobre el tema y algún que otro por qué sobre el estadístico kappa.

• Guardia Serecigni J, Segura García L, Gonzalvo Cirac B, Trujols Albet J, Tejero Pociello A, Suárez González A, Martí Gil A. (2004). Validation study of the Multidimensional Alcohol Craving Scale (MACS). Medicina Clinica, 123(6): 211-216.

Un ejemplo de validación de un cuestionario.

• Batista-Foguet JM, Coenders G, Alonso J.(2004). Confirmatory factor analysis. Its role on the validation of health related questionnaires. Medicina Clinica, 122 Suppl 1: 21-27 Para saber más sobre los modelos factoriales confirmatorios y su aplicación en la validación de cuestionarios.

• Dunn G. (1989) Design and Analysis of Reliability Studies. The statistical evaluation of measurement errors. New York: Oxford University Press.

Un referente en el diseño y análisis de estudios de fiabilidad.

Cálculo del tamaño de muestra

• Walter SD, Eliasziw M, Donner A. Sample size and optimal designs for reliability studies. Statistics in Medicine, 17, 101-110

• Bonett DG. (2002). Sample size requirements for estimating intraclass correlations with desired precisión. Statistics in Medicine, 21, 1331-1335.

• Donner A., Eliasziw M. (1992). A goodness-of-fit approach to inference procedures for the kappa statistic: Confidence interval construction, significance-testing, and simple size estimation. Statistics in Medicine, 11, 1511-1519.

• Dupont WD, Plummer WD. (1998). Power and sample size calculations for studies involving linear regression. Clinical Trials, 19, 589-601



5. RESUMEN

En esta unidad se ha abordado la evaluación de la validez y fiabilidad de los métodos

y/o instrumentos de medida. Hemos definido los diferentes tipos de errores de medida

que se pueden producir al realizar mediciones, así como varios conceptos

relacionados con la validez y la fiabilidad (como exactitud, precisión, repetibilidad y

reproducibilidad) que aparecen habitualmente en el lenguaje especializado.

Una vez definidos estos conceptos, hemos mostrado los análisis necesarios para

evaluar los diferentes tipos de errores de medida, y por ende de la validez y la

fiabilidad. Los análisis propuestos se exponen desde una perspectiva que facilite el

cálculo y la implementación con programas informáticos libres o de relativamente fácil

acceso. Como es habitual, los métodos de análisis a utilizar dependen de las

características de los resultados del proceso de medida (datos cuantitativos o datos

cualitativos) o medidas directas o indirectas.



6. EJERCICIOS

EJERCICIO 1

Se realiza un experimento en el que se mide la presión arterial diastólica (PAD) dos

veces en 142 individuos utilizando un esfigmomanómetro. Se desea evaluar la validez

y fiabilidad de este aparato. Con este fin se calcula el coeficiente de correlación

intraclase que da un valor de 0.843. ¿Qué respuesta considera que es la más

adecuada?

a. El instrumento es válido ya que el coeficiente de correlación intraclase da un

valor elevado

b. El instrumento no es válido porque el coeficiente de correlación intraclase es

inferior a 0.9

c. No se puede valorar la validez del instrumento porque el número de

individuos es insuficiente

d. No se puede valorar la validez porque no disponemos de un gold standard

que nos permita evaluar el error de medida sistemático.

e. El instrumento de medida es lo suficientemente fiable como para asumir que

el error sistemático es despreciable, y por lo tanto lo podemos considerar como

válido

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line

del curso, que encontrará en el Campus del CEC.



EJERCICIO 2

Se dispone de un método de detección de infecciones más rápido que el método

convencional (gold standard). No obstante, antes de su utilización se quiere comprobar

la validez y fiabilidad. Con este fin se recogen 50 muestras de individuos y se analizan

con el nuevo método (A) y el convencional (GS) que se usa como gold standard.

Los resultados observados fueron un 40% de positivos en A, mientras que en GS esta

proporción fue del 70%, y un 30% de positivos en las dos pruebas. Cuál de las

siguientes afirmaciones es cierta:

a. El P-valor de la prueba de McNemar es de 0.0051, por lo que se considera el

método A exacto.

b. El P-valor de la prueba de McNemar es de 0.0051, por lo que no se puede

considerar el método A como exacto.

c. El P-valor de la prueba de McNemar es de 0.51, por lo que se considera el

método A exacto.

d. El P-valor de la prueba de McNemar es de 0.51, por lo que no se puede

considerar el método A como exacto.

e. El P-valor de la prueba de McNemar es de 0.0051, por lo que no se puede

tomar una decisión sobre la exactitud del el método A.





EJERCICIO 3

Continuando con el enunciado y los resultados obtenidos en el ejercicio 2, Calcule el

índice kappa y el coeficiente phi. ¿Cuál de las siguientes afirmaciones es cierta?

a. El método A es válido aunque no exacto.

b. El método A es válido aunque no fiable.

c. El método A no es válido por falta de exactitud y fiabilidad.

d. El método A no es válido por falta de exactitud pero es fiable.

e. El método A no es válido por falta fiabilidad pero no de exactitud.



EJERCICIO 4

Se desea utilizar una nueva técnica (A) para cuantificar la concentración de una

hormona en sangre ya que resulta menos costosa que la técnica común (GS). No

obstante se sospecha que la técnica A puede tener el inconveniente de dar lecturas

con un cierto error de medida. Con el objetivo de analizar la magnitud de dicho error

de medida se realiza un ensayo en el que se mide la concentración de la hormona en

30 individuos utilizando las dos técnicas (A y GS). El fichero “hormona.txt” contiene los

datos de este ensayo (delimitador: tabulador). Se considera que la técnica A es

aceptable si difiere como mucho en 0.5 unidades en la mayoría (95%) de las medidas.

Analice los datos y señale que afirmación es correcta:

a. La técnica A no es válida debido a que tiene error sistemático



b. La técnica A es válida si se corrige el error sistemático

c. La técnica A es válida debido a que carece de error sistemático

d. La técnica A es válida si se corrigen tanto el error sistemático como el aleatorio

e. La técnica A no es válida debido a que no se puede corregir el error aleatorio



EJERCICIO 5

Lea el artículo de Batista-Foguet et al. (2004) (ver lecturas recomendadas) y señale la

respuesta correcta.

a. El modelo factorial exploratorio es apropiado para evaluar la validez.

b. El coeficiente alfa de Cronbach es útil para evaluar la validez de un

cuestionario.

c. El coeficiente alfa de Cronbach estima correctamente la fiabilidad si los ítems

son tau-equivalentes (homogeneidad de covarianzas).

d. El análisis factorial confirmatorio es una técnica más restrictiva que la teoría

clásica del test.

e. El análisis factorial confirmatorio es útil en la validación de un cuestionario pero

no para estimar su fiabilidad.





FIGURAS

F 6·2 Paired T statics

F 6·2 Paired T statics



F 6·3 Simple Linear Regression



F 6·5 Compute expression

F 6·6 Paired T statistics



F 6·8 Figura 8



F 6·10 Figura 10



TABLAS

T 6·1 Taula 1

Valor del Coeficiente de Correlación Intraclase Fiabilidad

>0.9 Alta

0.7-0.9 Buena

0.5-0.7 Regular / Media

0.3-0.5 Baja

0.1-0.3 Mala

<0.1 Inexistente

T 6·2 Taula 2

Efecto Suma de cuadrados Grados de libertad Media de cuadrados

Entre individuos SSB n-1 MSB=SSB/(n-1)

Error SSE n(k-1) MSE=SSE/(n(k-1))

Total SST nk-1

T 6·3 Taula 3

Estudio

Anatomopatológico

Avanzado Localizado Total

Avanzado 45 50 95 Ultrasonidos

Localizado 60 90 150

Total 105 140 245

Download - U6. ANÁLISIS DE ESTUDIOS DE FIABILIDAD Y VALIDEZ · el estado de ánimo del individuo. Los estudios de validación también se pueden clasificar como: a) validación de ... Por ejemplo,

Top Related