DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
U6. ANÁLISIS DE ESTUDIOS DE FIABILIDAD Y VALIDEZ
Carrasco, Josep Lluís Doctor en Biometría y Estadística. Profesor lector. Unidad de
Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de
Barcelona.
1. INTRODUCCIÓN
En el diseño de una investigación clínica una de las consideraciones más críticas es la
elección de la principal respuesta o medida que se utilizará en el análisis relacionado
con el principal objetivo del estudio. Esta respuesta puede ser un evento clínico el cual
puede ser observado sin error (o aproximadamente sin error), como el fallecimiento o
la supervivencia en un período de tiempo. En otros casos la respuesta puede consistir
en una característica clínica basada en un juicio subjetivo (astenia, dolor, estado de
ánimo) o en una medida más objetiva (por ejemplo anemia, fiebre,
hipercolesterolemia). De igual modo la respuesta puede consistir en una medida
cuantitativa (como el recuento de leucocitos, la temperatura en grados Celsius, o la
concentración plasmática de colesterol) o cualitativa (como la aparición o la remisión
de un síntoma).
Así la obtención de respuestas objetivas se produce mediante medidas, pero ¿qué es
una medida? En la literatura se pueden encontrar diversas definiciones de “medida”.
Stevens (1946) define medida como “la asignación de números a objetos o eventos de
acuerdo a una regla”. Así, se podría decir que una medida es una abstracción que
intenta hacer inteligible y objetivo un fenómeno relacionado con un objeto o
característica. Tomemos como ejemplo el fenómeno “fiebre”. Como tal, este concepto
es una abstracción que se basa en el hecho de que la especie humana tiene una
temperatura corporal más o menos constante y que ésta aumenta considerablemente
como respuesta a elementos externos como una infección. ¿Cómo obtener una
medida de este fenómeno? Es decir, ¿cómo asignar números “objetivos”? Para ello es
necesario disponer de un instrumento de medida (termómetro) cuyos resultados se
encuentren calibrados mediante una escala de medida.
A su vez las medidas pueden ser directas o indirectas. Diremos que la medición es
directa, cuando dispongamos de un instrumento de medida que la obtiene
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
“directamente”, que sería el caso del ejemplo anterior sobre la fiebre. En cambio,
diremos que la medición es indirecta cuando realizando la medición de una variable,
podamos calcular otra distinta, por la que estamos interesados. Por ejemplo, si se el
estado de ánimo de un individuo o su calidad de vida no pueden ser medidos
(objetivamente) de forma directa. Pero se podría utilizar un cuestionario como
instrumento de medida indirecta. Lo que se estará midiendo “directamente” es la
puntuación en el cuestionario, y de esta puntuación se puede derivar “indirectamente”
el estado de ánimo del individuo.
Los estudios de validación también se pueden clasificar como: a) validación de
instrumentos de medida, en los que las medidas son típicamente cuantitativas; b)
validación de evaluadores o raters, en los que las medidas son cualitativas; c)
validación de cuestionarios, en los que se derivan medidas indirectas como resultado
de la combinación de diferentes ítems.
Independientemente de cómo se obtenga, es interesante comprobar la calidad de la
medida mediante la cuantificación de sus propiedades estadísticas como la validez y
la fiabilidad.
La validez hace referencia al grado en que una medida refleja o cuantifica el concepto
específico que el investigador está intentando medir, es decir, si realmente se está
midiendo aquello que se pretende. Que la medida de la respuesta sea válida es una
condición inherentemente necesaria en un ensayo clínico y habitualmente se
determina mediante el conocimiento del proceso biológico o fisiológico subyacente de
la condición bajo estudio.
El concepto fiabilidad se refiere hasta que punto un experimento, una prueba o un
procedimiento de medida, proporciona el mismo resultado en diferente pruebas, es
decir, si la medida es repetible.
Más adelante retomaremos estos conceptos y veremos qué tipos de validez y
fiabilidad se pueden definir.
Respecto a las técnica estadísticas que se utilizarán en esta unidad, la mayoría ya se
han tratado en módulos anteriores, por lo que el alumno debería estar familiarizado
con la prueba de McNemar (unidad 2, módulo II), la comparación de medias con datos
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
apareados y el ANOVA (unidad 3 del módulo II) y el análisis de regresión simple
(unidad 1 del módulo III).
2. DISEÑO DE ESTUDIOS DE FIABLIDAD Y VALIDEZ
2.1 MODELO Y ERRORES DE MEDIDA
Supongamos que se mide una característica repetidamente sobre un conjunto de
individuos de forma que Xij corresponde a la medida j tomada sobre el individuo i, con
j=1,..,k y i=1,..,n. Se define el modelo de medida como la siguiente ecuación:
Donde τi es el valor real del individuo i, es decir, aquello que se pretende medir, y eij es
el error de medida correspondiente a la medición j. Por lo tanto este modelo asume
que no se puede medir directamente la característica en estudio sin un cierto error.
Esto no debe sorprender ya que es la situación más habitual. Por ejemplo, cuando
decimos que un individuo tiene una temperatura corporal de 36,5 ºC, ¿podemos
asegurar realmente que tiene esta temperatura? ¿O en realidad tiene
aproximadamente 36,5 ºC?. La diferencia entre la medida obtenida u observada y el
valor real dependerá de las propiedades estadísticas del proceso de medida (validez y
fiabilidad).
Sobre el modelo de medida se pueden definir dos tipos de errores de medida: el error sistemático y el error aleatorio.
El error sistemático es aquél que se produce sistemáticamente al realizar la medición,
es decir, es un error común y de igual magnitud en todas las mediciones. A su vez el
error sistemático se puede clasificar como error sistemático constante y error
sistemático proporcional.
En términos del modelo de medida
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Dónde α es el error sistemático constante, aquél error constante que se produce en
cada medida independientemente del valor real τi. En cambio β expresa el error
sistemático proporcional, aquél error que se produce en cada medida y cuya magnitud
es proporcional al valor real τi.
Por otro lado se puede producir un error que no siga ninguna regla, que no sea
siempre sistemáticamente el mismo, sino que en cada medición el error tenga una
magnitud diferente e impredecible. Cuando esto ocurre se dice que el error es
aleatorio y se correspondería con el término eij del modelo. En muchas ocasiones es
razonable asumir que los valores de este error siguen una ley de probabilidad Normal
de media 0 y una cierta varianza que designaremos como .
Ejemplo
En un ensayo clínico se pretende evaluar el efecto de un fármaco en el músculo
esquelético en pacientes neoplásicos con caquexia. Uno de los criterios de inclusión
es la pérdida del 10% de peso en 6 meses. Por lo tanto es necesario pesar a los
individuos en diversos momentos para concretar su pérdida de peso. Supongamos
que la balanza que se utilizase para tal fin tuviese error de medida de forma que no
diese exactamente el peso auténtico del individuo (valor real).
Si, para cualquier individuo, el resultado de cada medición fuese, por ejemplo, 2Kg
más que su peso real, nos encontraríamos frente a un error sistemático constante de
2Kg. También podría suceder que la medición o valor observado fuese un 10%
superior al peso real, de forma que un individuo que realmente pesase 60 Kg la
balanza diese un valor de 66Kg, para otro de 70Kg se obtuviese 77Kg, etc. En esta
situación estaríamos frente a un error sistemático proporcional.
Asimismo podría darse el caso en que el peso observado de un individuo fuese
diferente en sucesivas mediciones, cuando su peso real no ha podido variar entre
estas mediciones. Por ejemplo, que el peso real fuese de 60 Kg y en una medición se
obtiene 62Kg, en otra medición sucesiva 61 Kg, en otra 59 Kg, etc. En este caso nos
enfrentaríamos a un error de tipo aleatorio.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
De hecho la realidad puede ser todavía más compleja, ya que habitualmente los
diferentes errores aparecen conjuntamente modificando todos ellos el valor real.
Para cuantificar el error de medida sistemático es necesario conocer (sin error o con
un error despreciable) el valor real mediante lo que se denomina un gold standard.
Obtener una medida sin error no es sencillo y puede impedir la evaluación del error
sistemático. En el ejemplo anterior se debería disponer de una balanza sin ningún tipo
de error, o lo que es más habitual, disponer de unas pesas de las cuales se conoce
exactamente el peso.
En lo que se refiere al error aleatorio, al contrario que con el error sistemático, es
posible cuantificar su magnitud (varianza) sin necesidad de un gold standard. Esto es
debido a que el error aleatorio se cuantifica mediante la variabilidad de mediciones
sucesivas del mismo sujeto, ya que el error sistemático es el mismo en las sucesivas
mediciones, y siempre y cuando el valor real se mantenga estable en estas
mediciones. Así que, lo que sí que es necesario es disponer de estas medidas
repetidas o réplicas.
Las técnicas para cuantificar la magnitud de estos errores, así como el número de
individuos y réplicas necesarios son aspectos que abordaremos en la siguiente
sección.
2.2 TIPOS DE VALIDEZ
Como ya se ha dicho en la introducción, la validez hace referencia al grado en que el
valor observado realmente mide la cantidad o característica que se desea medir.
No obstante la validez no es un concepto único, y puede aparecer bajo diferentes
significados dando lugar a diferentes tipos de validez. Algunos de estos tipos tienen
poco sentido en ciencias experimentales o biológicas, siendo más comunes en
ciencias sociales o en psicometría.
Tampoco debe confundirse la validez (externa e interna) de un estudio con la validez
instrumental. Recuerde que la validez externa de un estudio o investigación se refiere
a la extensión en que los resultados de un estudio son generalizables o transferibles.
Mientras que la validez interna de un estudio o investigación se refiere al rigor con el
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
que el estudio se ha llevado a cabo (diseño del estudio adecuado a los objetivos
propuestos, calidad de las medidas, metodología estadística apropiada, etc.).
A continuación se definen algunos tipos de validez que resultan interesantes para las
ciencias médicas:
• Validez de constructo. Hace referencia al grado de acuerdo entre un
instrumento de medida y el concepto teórico que se pretende medir. La
evaluación de este tipo de validez tiene poco sentido en ciencias
experimentales donde se utilizan medidas directas, dado que se supone que el
instrumento se ha construido ad hoc para medir aquel concepto teórico
deseado. Por ejemplo, el instrumento termómetro mide el concepto
temperatura, o el instrumento esfigmomanómetro mide el concepto presión
arterial. No obstante, este tipo de validez tiene mucho sentido en ciencias
psicológicas y sociales donde gran parte de las medidas son indirectas. Así nos
podríamos plantear si un cuestionario (instrumento) diseñado para medir
calidad de vida (concepto teórico) realmente mide este concepto. Para que un
instrumento tenga validez de constructo es necesario que se cumplan dos tipos
de validez: convergente y discriminante.
• Validez convergente y discriminante. Supongamos que se dispone de
diferentes indicadores proporcionados por el instrumento de medida. En un
cuestionario podrían ser las diferentes preguntas o set de preguntas. La validez
convergente se da cuando se observan altas correlaciones positivas entre
aquellos indicadores que teóricamente están directamente relacionados según
el concepto teórico. En cambio la validez discriminante o divergente se da
cuando se observan correlaciones no significativas entre aquellos indicadores
que, de acuerdo con el concepto teórico, no deberían estar relacionados.
• Validez de criterio. Se refiere a la capacidad de un instrumento para predecir
una respuesta. Por ejemplo, si el resultado obtenido en un test de personalidad
(instrumento) puede predecir el comportamiento futuro de un individuo
(respuesta). Este tipo de validez se puede dividir en validez concurrente y
predictiva.
• Validez concurrente. Hace referencia al grado en que las medidas obtenidas
mediante el instrumento correlacionan con otras medidas del mismo o de otro
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
concepto teórico relacionado. Por ejemplo, uno espera que la calidad de vida
se encuentre relacionada con el estado de ánimo. Así, si se facilitan a la vez
dos cuestionarios, uno que mide calidad de vida y el otro depresión, existirá
validez concurrente si las puntuaciones obtenidas con ambos cuestionarios
presentan una correlación elevada.
• Validez predictiva. Hace referencia al grado en que las medidas obtenidas
mediante el instrumento predicen (o correlacionan) otras medidas del mismo o
de otro concepto teórico relacionado. En este caso supongamos que se utiliza
un test de calidad de vida a una serie de individuos, y un tiempo después (por
ejemplo un año) se facilita el cuestionario sobre depresión. Si las puntuaciones
de ambos tests correlacionan diremos que el cuestionario de calidad de vida
tiene validez predictiva en relación con la depresión.
• Validez instrumental. Se refiere al grado en que un instrumento mide
realmente aquello que se pretende medir sin error o con un error despreciable.
Este es el tipo de validez que nos proponemos abordar y evaluar en este curso.
Para que el instrumento sea válido es necesario que sea exacto y preciso,
conceptos que deben ser ahora definidos.
La Food and Drug Administration define la falta de exactitud de una medida como la
desviación media respecto al valor real de diversas mediciones realizadas sobre el
mismo sujeto, de forma que el procedimiento de medida es exacto si esta desviación
media es nula. Dicho de otro modo, el procedimiento de medida es exacto si carece de
error sistemático.
Para cuantificar el error de medida sistemático es necesario disponer de una medida
sin error o gold standard. Como se verá en la sección siguiente, si se dispone de un
gold standard el error de medida sistemático puede ser corregido y conseguir un
instrumento de medida exacto. Al proceso de cuantificación y eliminación del error de
medida sistemático se le denomina calibración.
Se entiende por precisión el grado en que diferentes medidas dan resultados
similares. De hecho en ciencias experimentales precisión y fiabilidad son sinónimas
de forma que un instrumento es fiable si es preciso, y es preciso si es fiable. Así
evaluar la precisión es en realidad evaluar la fiabilidad del instrumento. Recordemos
que se definió fiabilidad como el grado de concordancia entre las diferentes medidas
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
realizadas con el mismo instrumento de medida. Así que, en términos del modelo de
medida, requiere ausencia de error aleatorio, es decir, que la varianza del error
aleatorio sea nula. Obviamente esto puede ser utópico, ya que habitualmente siempre
existirá un cierto error de medida aleatorio, y la pregunta que realmente interesa
responder es ¿cuál es la magnitud del error aleatorio? Si el error aleatorio es
insignificante o tiene un impacto pequeño en la medida resultante diremos que es
asumible y que el instrumento es fiable.
Es necesario aclarar que el sustantivo precisión puede utilizarse para referirse a
diferentes conceptos, así también se podría interpretar la precisión de un instrumento
como la unidad más pequeña que un instrumento es capaz de discriminar, por
ejemplo, la precisión de la balanza no sería la misma si las lecturas obtenidas se
encuentran en Kilogramos, gramos o nanogramos. En este caso se diría que cuanto
más pequeña es la unidad más preciso es el instrumento. En este caso precisión sería
un concepto más próximo a la exactitud que a la fiabilidad.
Respecto a la fiabilidad existen dos conceptos que vale la pena comentar ya que
acostumbran a aparecer en la literatura:
Reproducibilidad. Es la capacidad de una prueba, una medida o un experimento, de
ser exactamente reproducido o replicado. Así, requiere que exista un cierto grado de
fiabilidad entre los resultados (test, medida o experimento) utilizando diferentes
condiciones experimentales (operadores, instrumentos, laboratorios, etc.). Por
ejemplo, supongamos que se mide la presión arterial sistólica (PAS) con un mismo
esfigmomanómetro en una serie de individuos en dos momentos diferentes del día
(mañana y noche). El grado de fiabilidad entre las dos medidas nos indicaría la
reproducibilidad de la PAS dado que al menos una de las condiciones experimentales
(momento del día) ha variado. De hecho, si las dos mediciones se realizasen en el
mismo momento del día peor en días diferentes también nos referiríamos a la
reproducibilidad, ya que la PAS tiene una alta variabilidad intra-individuo y se pueden
producir cambios de PAS en períodos cortos de tiempo.
Repetibilidad. Se refiere a la capacidad de obtener los mismos resultados, ya sea
referida a un instrumento de medida o a un experimento, cuando se repite bajo las
mismas condiciones experimentales. El instrumento de medida o experimento se
denomina como repetible si la variabilidad de sus resultados en repetidas aplicaciones
es inferior a algún límite acordado.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
El diseño de un estudio de repetibilidad debe contemplar que se debe utilizar siempre
el mismo instrumento o procedimiento de medida, lo que incluye también al mismo
observador, y bajo las mismas condiciones experimentales y localización, y que la
repetición de las medidas debe realizarse en un período razonablemente corto de
tiempo de forma que se pueda asumir que el valor real no ha variado .
Resumiendo, el diseño de un estudio de validez, en el que sea desea evaluar la
exactitud y precisión (fiabilidad) requiere disponer de un instrumento de medida con un
error despreciable o gold standard. No obstante sucede a menudo que no es posible
disponer de un gold standard y no se puede evaluar la validez del instrumento. En
esta situación, cómo se verá en la sección de análisis, aún sería posible evaluar la
fiabilidad del instrumento, realizando diferentes medidas repetidas sobre el mismo
sujeto en un período corto de tiempo en el que el valor real se mantenga estable.
2.3 CÁLCULO DEL TAMAÑO DE MUESTRA
En el diseño de cualquier estudio un punto clave es cuantificar el número de individuos
necesarios para obtener unos resultados adecuados para derivar las conclusiones
apropiadas. Como en cualquier investigación, el cálculo del tamaño de muestra está
ligado al método de análisis que se utilizará, y siempre con el objetivo de conseguir
unas estimaciones lo suficientemente precisas o alcanzar un nivel de potencia
estadística suficiente para llevar a cabo los contrastes de hipótesis. Como se verá en
la siguiente sección, los métodos son variados dependiendo de la naturaleza de los
datos, y por lo tanto el cálculo del tamaño muestral diferirá de un caso a otro. Así, en el
apartado de Lecturas Recomendables se dan algunas referencias sobre el cálculo de
tamaño muestral en referencia con algunos de los métodos estadísticos propuestos.
3. ANÁLISIS DE ESTUDIOS DE VALIDEZ Y FIABILIDAD
En esta sección se explicarán los diferentes métodos para evaluar la validez de un
instrumento de medida mediante la comparación con un gold standard. También
visitaremos el escenario en que no es posible disponer de un gold standard pero se
evalúa la fiabilidad del instrumento mediante la comparación de diferentes medidas
repetidas.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
3.1 ANÁLÍSIS DE VALIDEZ: EVALUACIÓN DE LA EXACTITUD
Supongamos un experimento en el que la variable principal de estudio es la presión
arterial sistólica (PAS). Para realizar las mediciones de PAS se utilizará un
esfigmomanómetro del cual se desea evaluar su validez. Con este fin se diseña un
estudio en el que se incluyen 40 individuos a los cuales se les realizará una medición
simultánea de la PAS en mmHg mediante el aparato a validar (Device) y otro el cuál se
asume que mide la PAS con un error despreciable (Gold). Los datos se encuentran
disponibles en el fichero EJEMPLO PAS.TXT. Recuerde que para cargar los datos en
StatCrunch debe seguir los pasos Data Load Data From file, en el cuadro de
diálogo debe especificar la ubicación y nombre del fichero del fichero, el separador
“Tab” y que en la primera fila constan los nombres de las variables.
Como se ha explicado en la sección anterior, consideraremos el instrumento válido si
es exacto y preciso, esto es, carece de error sistemático y el error aleatorio no es
importante.
Para evaluar la exactitud se puede proceder de dos formas:
1) Cuantificarla globalmente mediante la diferencia de medias del instrumento a
validar y el gold standard.
2) Cuantificar la magnitud de cada error sistemático (constante y proporcional)
mediante un modelo de regresión lineal simple.
Comencemos por el primer caso. Para realizar la comparación de medias se debe
tener en cuenta que se trata de datos apareados, ya que cada individuo ha sido
medido mediante los dos instrumentos. Para obtener la estimación de la diferencia de
medias con StatrCrunch utilizaremos Stats T-Statistics Paired y aparecerá el
cuadro de diálogo que se muestra en la (Figura 1).
Una vez seleccionadas las variables se sigue hacia delante (opción Next) y se
selecciona la opción Confidence Level, es decir, realizaremos una estimación por
intervalo de la diferencia de medias con una confianza del 95% (opción por defecto).
Como resultado aparecerá la ventana que se observa en la (Figura 2).
La diferencia de medias entre el instrumento a validar y el gold standard es de 22.975
mmHg con un intervalo de confianza del 95% de 22.602 a 23.347.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Así que existe un cierto error sistemático que hace que, en media, el instrumento mida
aproximadamente unos 23 mmHg por encima del valor real. El intervalo de confianza
no incluye el cero (situación de no error sistemático) y los límites del intervalo nos
indican que el error sistemático puede llegar a ser aproximadamente de 23.35 mmHg.
Por lo tanto este error se considera que existe (no es diferente de 0) y no es
despreciable ya que puede situarse en valores alejados de 0.
Pero, ¿este error sistemático es constante o proporcional al valor real? La respuesta a
esta pregunta nos lleva al segundo procedimiento, el modelo de regresión lineal
simple. El modelo que se estimará es
Dónde α indica el error sistemático constante, β el error sistemático proporcional y e el
error aleatorio. Para estimar los parámetros de la recta de regresión con StatCrunch
debemos proceder mediante Stats Regression Simple Linear y aparece el
cuadro de diálogo que se muestra en la Figura 3. Recuerde que la variable GOLD es
la variable X (independiente) y DEVICE es la variable Y (dependiente). Desde aquí ya
podemos picar la opción Calculate ya que el resto de opciones no son necesarias
para este análisis. El resultado se muestra en la (Figura 4).
La recta de regresión estimada es (ver columna Estimate)
Esto indica que el instrumento constantemente da un valor superior al valor real en
13.126 mmHG más un valor proporcionalmente superior en 1.076 veces o, dicho de
otro modo, un 7,6% mayor.
En la Figura 4 no se muestra el intervalo de confianza para cada parámetro por lo que
no se puede evaluar la relevancia de cada tipo de error. Recuerde que en la situación
ideal de ausencia de error sistemático � debería ser igual a 0 y β igual a 1. No
obstante el output de StatCrunch si que nos ofrece el error estándar de la estimación
(columna Std. Err.) con lo que se puede calcular el intervalo de confianza del 95%
como (aproximadamente)
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Así el intervalo de confianza para el error sistemático constante es 4.279 a 21.973, que
no incluye el valor 0. Por lo tanto el instrumento tiene un problema de error sistemático
constante y este puede llegar a ser de una magnitud de 21.973 mmHG.
El intervalo de confianza correspondiente al error sistemático proporcional es 1.008 a
1.144, que no incluye el 1. Por lo tanto el instrumento también tiene un problema de un
cierto error sistemático proporcional, el cuál puede llegar a tener una magnitud de
1.144, es decir, que el instrumento de lecturas un 14,4% superiores al valor real.
No obstante, y tal como se explicó en la sección anterior, el error sistemático puede
ser corregido mediante la calibración del instrumento. Para ello utilizaremos las
estimaciones de la regresión lineal simple. Las medias serán corregidas mediante la
operación:
Para realizar esta operación con StatCrunch debemos ir a Data�Compute expression y completar la expresión tal como aparece en la Figura 5. Como resultado
una nueva variable aparecerá en StatCrunch cuyo nombre será igual a la expresión.
Si repetimos los análisis anteriores con esta nueva variable, el instrumento calibrado,
se puede comprobar que ahora la diferencia de medias es prácticamente nula (Figura
6) y que las estimaciones de la recta de regresión son las apropiadas, ordenada en el
origen de 0 y pendiente de 1 (Figura 7).
3.2 ANÁLISIS DE VALIDEZ: EVALUACIÓN DE LA FIABILIDAD
La evaluación de la fiabilidad implica analizar la magnitud de la varianza del error
aleatorio. Este análisis se puede llevar a cabo de dos maneras:
1) Valorando hasta cuanto puede variar una medida sobre un mismo individuo.
Para ello se aproxima un intervalo de probabilidad del 95% como
donde es la desviación típica del error aleatorio. El intervalo resultante
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
contiene aproximadamente el 95% de los posibles valores del error aleatorio de
medición. Retomando el ejemplo anterior, en la Figura 4 aparece un valor con
la etiqueta “Estimate of the standard error deviation”. Se trata de la estimación
de , así el intervalo de predicción es:
Cuya interpretación es que las medidas obtenidas mediante el instrumento
evaluado (el esfigmomanómetro en este caso) tienen una diferencia absoluta
respecto al valor real que, en la mayoría de los casos (aproximadamente el
95%), es inferior o igual a 2.22 mmHg. Corresponde al investigador determinar
si esta diferencia es sustantiva como para considerar no válido el instrumento .
En este caso, posiblemente podría considerarse que la fiabilidad es aceptable,
ya que 2.22 mmHg está por debajo de lo que habitualmente se considera la
mínima diferencia relevante (5 mmHg).
El intervalo de predicción también podría calcularse para el instrumento
calibrado mediante la estimación de la Figura 7. En este caso:
Este valor se puede considerar más apropiado desde el punto de vista de
aplicabilidad del instrumento, ya que es razonable suponer que el instrumento
se utilizará una vez corregido el error de medida sistemático. En cambio, el
primer valor tiene más sentido desde el punto de vista de análisis del error del
instrumento, ya que permite compararlo con los errores sistemáticos.
2) Se puede dar el caso de que no sea sencillo de interpretar la magnitud del error
aleatorio en las unidades de medida del instrumento (mmHg en el ejemplo) y
no se pueda tomar una decisión sobre la fiabilidad del instrumento. En este
caso es más apropiado utilizar un índice adimensional (sin unidades de
medida) que evalúe el grado de fiabilidad en una escala de 0 a 1. Este índice
es el llamado coeficiente de correlación intraclase o coeficiente de fiabilidad.
El coeficiente de fiabilidad se define como el cociente
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Por lo tanto nos indica la proporción que representan los valores reales respecto a los
valores observados. y se interpreta como la proporción de la medida (X) que no es
error aleatorio, es decir, que es medida real (τ).Idealmente debe utilizarse en ausencia
de error sistemático por lo que utilizaremos las estimaciones que aparecen en la
Figura 7.
Las varianzas correspondientes las obtendremos mediante el cociente SS/DF de los
valores que aparecen en la tabla “Analysis of variance table for regression model”. Así
la varianza del error resulta de
Y la varianza total (X)
La estimación del coeficiente de correlación intraclase es
Este coeficiente se puede expresar en tanto por ciento de forma que diremos que la
fiabilidad es del 96.22%, lo que indica un alto grado de fiabilidad. La interpretación del
coeficiente de correlación intraclase se puede realizar en base a la relación mostrada
en la Tabla 1.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
3.3 ANÁLISIS DE FIABLIDAD EN AUSENCIA DE GOLD STANDARD
A menudo ocurre que en un experimento en concreto no es posible disponer de un
instrumento de medida con un error despreciable cuyas medidas puedan ser utilizadas
de referencia para compararlas con aquellas que resulten de utilizar el instrumento que
se desea evaluar.
En esta situación no puede evaluarse el error de medida sistemático, pero todavía es
posible analizar el error de medida aleatorio y así la fiabilidad. Para ello es necesario
disponer de medidas repetidas realizadas con el instrumento a evaluar sobre los
mismos individuos y en un espacio corto de tiempo (idealmente lo suficientemente
corto para que el valor real no varíe).
Con el fin de evaluar la fiabilidad se calcularan la varianza del error aleatorio y el
coeficiente de correlación intraclase. Para ello, y en este contexto, es necesario utilizar
un análisis de la varianza (ANOVA) de una vía.
Cálculo de ANOVA de una vía
Supongamos que se dispone de una muestra de n individuos, y que a cada uno de
ellos se les mide la variable de interés repetidamente k veces. Designaremos cada una
de estas medidas para el individuo i como Yi1, Yi2,…,Yik. El proceso de estimación es
el siguiente:
1) Calcular la media total de todos los valores. Llamaremos a este valor media
total (MT).
2) A cada medida repetida le restaremos la media total y llamaremos al resultado
dij.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
3) Se eleva al cuadrado cada dij y se suman todos. Al resultado le llamamos
“suma de cuadrados totales” (SST).
4) Ahora calcularemos la media de las medidas de cada individuo, de forma que
deben resultar n medias. Designaremos a estos valores como medias
individuales (MID)
5) Se calcula la desviación de cada valor respecto a la media individual
correspondiente y a esta desviación la llamaremos DI.
6) Se eleva al cuadrado las DI y se suman todos los valores, obteniéndose la
“suma de cuadrados del error”.
7) A continuación se calcula la suma de cuadrados “entre-individuos” o SSB, que
se puede obtener como diferencia entre SST y SSE.
8) Finalmente se calcula la media de cuadrados dividiendo casa suma de
cuadrados entre sus grados de libertad. En la tabla 2 se muestra un resumen
de la tabla ANOVA correspondiente.
MSE es la estimación de la varianza del error aleatorio y el estimador del coeficiente
de correlación intraclase es
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Continuando con el ejemplo anterior, en el fichero de Excel EJEMPLO PAS 2.xls
dispone de los datos correspondientes a dos medidas de la presión arterial sistólica
realizados con el esfigmomanómetro que se deseaba evaluar.
La primera columna “id” hace referencia a la identificación del individuo. Las columnas
“device” y “device2” son las dos medidas repetidas de presión arterial sistólica. Las
columnas D y E corresponden a las de cada repetición. La siguiente columna
corresponde a la media de cada individuo (MID), y en las columnas G y H se ha
calculado para cada medida repetida. Con estos datos la estimación de la
varianza del error aleatorio es de 1.275 mientras que la estimación del coeficiente de
correlación intraclase es de 0.9607, es decir, se estima una fiabilidad del 96.07%.
3.4 ANÁLISIS DE DATOS CUALITATIVOS
En esta sección visitaremos el escenario en que las mediciones se realizan en una
escala cualitativa. Los conceptos son similares a los expuestos hasta ahora, validez,
exactitud, fiabilidad, etc. Pero debido al inevitable cambio de modelo de medida debido
a la naturaleza cualitativa de los datos, lo que sí que cambiará será el método de
análisis.
Como ejemplo ilustrativo utilizaremos datos hipotéticos de pacientes con cáncer de
próstata. A cada uno de los pacientes se les valora el estado en que se encuentra la
neoplasia (Avanzado, Localizado) mediante ultrasonidos (instrumento de medida a
evaluar) y mediante un estudio anatomopatológico (gold estándar). El resumen de los
datos se encuentra en la Tabla 3.
Para que el instrumento o método de medida basado en ultrasonidos sea válido debe
evaluarse su exactitud y fiabilidad.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
La exactitud en el caso cualitativo comporta que haya una cierta igualdad de
probabilidades, es decir, que ambos métodos de medida clasifiquen con igual
probabilidad a los individuos como Avanzado (o Localizado). Al tratarse de datos
binarios es indiferente si la comparación se realiza sobre la probabilidad de Avanzado
o de Localizado, ya que estas probabilidades son complementarias y la igualdad de la
probabilidad de Avanzado entre los dos métodos comporta igualdad de la probabilidad
de Localizado.
Las estimaciones de la probabilidad de “Avanzado” para cada método se pueden
extraer de la Tabla 3. Así, con el método de Ultrasonidos se ha clasificado como
“Avanzado” a 95 de 245 individuos, dando una proporción de 95/245=0.387. En el
caso del estudio patológico esta proporción es de 105/245=0.428. ¿Se pueden
considerar estas proporciones diferentes? Las estimaciones lo son, pero ¿y a nivel
poblacional? Para contestar a estas cuestiones debemos realizar un contraste de
hipótesis para proporciones apareadas. Este contraste se resuelve con la prueba de
McNemar. Diversos paquetes estadísticos (SAS, SPSS,…) tienen implementada esta
prueba, y también se vio como resolverla con StatCrunch en este máster (unidad 2 del
módulo II) De hecho su cálculo no es complicado y también podría realizarse con una
hoja de Excel. Otra alternativa es el uso de calculadora estadísticas disponibles en
internet como QuickCalcs (http://www.graphpad.com/quickcalcs/index.cfm). Es esta
última opción la que usaremos para resolver el contraste.
Al acceder a QuickCalcs nos aparecen diversas opciones dependiendo del análisis
que deseemos realizar. En el caso que nos ocupa elegiremos la opción Categorical Data y en la siguiente pantalla McNemar's test to analyze a matched case-control study. Ahora se trata de completar las casillas con las frecuencias adecuadas. El
programa utiliza las etiquetas “Yes” y “No” que simplemente debemos trasladar a
nuestro ejemplo. Así, por ejemplo, “Yes” podría identificar a “Avanzado” y “No” a
“Localizado”. La (Figura 8) muestra la pantalla con los datos introducidos. A
continuación apretaremos en el botón “Calculate” y aparecerán diversos resultados.
Bajo la etiqueta P-value se lee “The two-tailed P value equals 0.3908”, se refiere al P-
valor asociado al contraste de igualdad de proporciones. Utilizando un nivel de
significación α del 5%, no se rechaza la hipótesis de igualdad.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Para la evaluación de la fiabilidad utilizaremos el coeficiente phi. La interpretación de
este coeficiente es similar al coeficiente de correlación intraclase. Su cálculo se basa
en el estadístico chi-cuadrado de Pearson , de forma que
Donde n es el número de individuos, n=245 en nuestro ejemplo.
Para obtener el valor del estadístico chi-cuadrado de Pearson también podemos
utilizar QuickCalcs con la opción Fisher's and chi-square. Analyze a 2x2 contingency table. Una vez elegida esta opción aparecerá una pantalla en la que
deben implementarse las frecuencias observadas. El test que se debe elegir es Chi-square without Yates' correction y respecto a que P-valor se debe calcular (Two-
tailed o One-tailed) es irrelevante, porque lo único que queremos obtener es el valor
del estadístico. En la siguiente pantalla aparece el valor del estadístico chi cuadrado
que es de 1.289. Así el coeficiente phi resultante es
El valor del coeficiente phi es muy bajo indicando que la fiabilidad es muy mala, con lo
que se concluye que método de ultrasonidos no es válido y requiere una revisión.
Es posible evaluar agregadamente la exactitud y la fiabilidad con un único análisis,
mediante el llamado índice de concordancia kappa. Este índice mide concordancia
entre variables cualitativas, lo que aplicado a nuestro ejemplo significa que evaluará la
concordancia entre el método de ultrasonidos y el estudio patológico. La escala de
valores y su interpretación es similar a la del coeficiente de correlación intraclase, de
modo que, para considerar el método de medida válido al compararlo con el gold
standard, es necesario obtener un valor del índice elevado (por encima de 0.9).
Para calcular este índice utilizaremos de nuevo QuickCalcs. En este caso se debe
elegir la opción Kappa. Quantify interrater agreement y entrar las frecuencias
correspondientes tal como se muestra en la Figura 10. Calculamos el índice (Botón
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
“Calculate now”) y se obtiene un valor de 0.072, que indica una concordancia
despreciable entre los dos métodos.
El resultado que hemos obtenido utilizando el coeficiente kappa es coherente con lo
observado antes al usar la prueba de McNemar y el coeficiente phi. Las proporciones
no eran significativamente diferentes y en cambio la fiabilidad era muy pobre, de ahí
que la estimación del índice kappa sea similar al valor de phi.
Como en el caso cuantitativo, también podría darse la situación de no disponer de un
gold estándar. En tal escenario sólo será posible evaluar la fiabilidad del método de
medida tomando mediciones repetidamente. Si se toman dos mediciones se puede
evaluar la fiabilidad utilizando el coeficiente phi usando como variables el resultado de
cada medición. También se podría utilizar el índice kappa y comprobar cómo
concuerdan las dos mediciones, pero aquí nos podemos encontrar con un problema.
Al utilizar el mismo método de medida en dos mediciones es absurdo pensar que la
proporción poblacional de cada categoría pueda variar de una medición a otra, pero en
una muestra sí que puede suceder. Esta variabilidad de la proporción será tenida en
cuenta por el índice kappa dando un valor algo inferior al real. Esta situación se ha
corregido definiendo un índice llamado intraclass kappa, pero que creemos que su
definición va más allá de los objetivos de este curso. En cualquier caso, en las lecturas
recomendables se incluyen referencias en las que se puede explorar esta posibilidad y
abordar otras situaciones como variables cualitativas con más de dos categorías y/o
medidas en una escala ordinal.
3.5 ANÁLISIS DE CUESTIONARIOS
En este apartado visitaremos brevemente el caso de medidas indirectas obtenidas
mediante un cuestionario. Esta situación es bastante habitual en investigaciones
médicas en las que se evalúan aspectos relacionados con la calidad de vida, salud
mental o satisfacción. A menudo el resultado de estos cuestionarios consiste en una
puntuación derivada de las respuestas a cada ítem que compone el cuestionario .Dado
que esta puntuación es una variable cuantitativa se podrían aplicar los mismos
métodos expuestos anteriormente para evaluar la exactitud y precisión de la medida
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
en relación con la validez instrumental. No obstante, al tratarse de medidas indirectas,
es interesante evaluar otros tipos de validez. En esta sección se mencionaran
brevemente algunas de estas técnicas sin entrar en su proceso de cálculo.
La validez de constructo se evalúa mediante modelos factoriales confirmatorios. Estos
modelos pretenden replicar el modelo que relaciona los indicadores del cuestionario
(ítems o sets de ítems) con los conceptos teóricos subyacentes en el cuestionario.
También es interesante comprobar la consistencia interna del cuestionario, concepto
relacionado con la fiabilidad del mismo. El estadístico más ampliamente utilizado para
medir la consistencia interna es la alpha de Cronbach. Este estadístico evalúa la
fiabilidad de una serie de ítems en la medición de un concepto teórico. Se basa en la
correlación entre los ítems, de forma que a mayor correlación mejor medirán el
concepto, pero asumiendo que sólo existe un concepto subyacente. En realidad tanto
su expresión como interpretación es similar a la del coeficiente de correlación
intraclase, tomando valores entre 0 y 1. Una regla de decisión común es considerar
que un valor entre 0.6 y 0.7 indica una fiabilidad aceptable, valores por encima de 0.8
indican una buena fiabilidad. No obstante, valores por encima de 0.95 indicarían que la
correlación entre los ítems es tan elevada que probablemente alguno (o algunos) son
redundantes y no aportan información.
Para implementar tanto el modelo factorial confirmatorio como la alpha de Cronbach
es necesario disponer de un paquete estadístico adecuado como SPSS o SAS.
4. LECTURAS RECOMENDABLES
• Stevens, S.S. (1946). On the theory of scales of measurement. Science, 103, 677-680. Para saber más sobre la definición formal de medida y escalas de medida.
• Mc Dowell I, Newell C. (1996). Measuring health: a guide to rating scales and questionnaires. New York: Oxford University Press.
Un referente sobre validación de instrumentos de medida.
• Lachin, J.M. (2004). The role of measurement reliability in clinical trials. Clinical Trials, 1: 553-566.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
Resumen práctico fiabilidad de medidas con aplicación a ensayos clínicos. Aporta aspectos inferenciales sobre el coeficiente de correlación intraclase.
• Shoukri, M.M. (2004). Measures of Interobserver Agreement. Chapman & Hall/ CRC
Para aquellos que quieran saber más sobre el tema y algún que otro por qué sobre el estadístico kappa.
• Guardia Serecigni J, Segura García L, Gonzalvo Cirac B, Trujols Albet J, Tejero Pociello A, Suárez González A, Martí Gil A. (2004). Validation study of the Multidimensional Alcohol Craving Scale (MACS). Medicina Clinica, 123(6): 211-216.
Un ejemplo de validación de un cuestionario.
• Batista-Foguet JM, Coenders G, Alonso J.(2004). Confirmatory factor analysis. Its role on the validation of health related questionnaires. Medicina Clinica, 122 Suppl 1: 21-27 Para saber más sobre los modelos factoriales confirmatorios y su aplicación en la validación de cuestionarios.
• Dunn G. (1989) Design and Analysis of Reliability Studies. The statistical evaluation of measurement errors. New York: Oxford University Press.
Un referente en el diseño y análisis de estudios de fiabilidad.
Cálculo del tamaño de muestra
• Walter SD, Eliasziw M, Donner A. Sample size and optimal designs for reliability studies. Statistics in Medicine, 17, 101-110
• Bonett DG. (2002). Sample size requirements for estimating intraclass correlations with desired precisión. Statistics in Medicine, 21, 1331-1335.
• Donner A., Eliasziw M. (1992). A goodness-of-fit approach to inference procedures for the kappa statistic: Confidence interval construction, significance-testing, and simple size estimation. Statistics in Medicine, 11, 1511-1519.
• Dupont WD, Plummer WD. (1998). Power and sample size calculations for studies involving linear regression. Clinical Trials, 19, 589-601
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
5. RESUMEN
En esta unidad se ha abordado la evaluación de la validez y fiabilidad de los métodos
y/o instrumentos de medida. Hemos definido los diferentes tipos de errores de medida
que se pueden producir al realizar mediciones, así como varios conceptos
relacionados con la validez y la fiabilidad (como exactitud, precisión, repetibilidad y
reproducibilidad) que aparecen habitualmente en el lenguaje especializado.
Una vez definidos estos conceptos, hemos mostrado los análisis necesarios para
evaluar los diferentes tipos de errores de medida, y por ende de la validez y la
fiabilidad. Los análisis propuestos se exponen desde una perspectiva que facilite el
cálculo y la implementación con programas informáticos libres o de relativamente fácil
acceso. Como es habitual, los métodos de análisis a utilizar dependen de las
características de los resultados del proceso de medida (datos cuantitativos o datos
cualitativos) o medidas directas o indirectas.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
6. EJERCICIOS
EJERCICIO 1
Se realiza un experimento en el que se mide la presión arterial diastólica (PAD) dos
veces en 142 individuos utilizando un esfigmomanómetro. Se desea evaluar la validez
y fiabilidad de este aparato. Con este fin se calcula el coeficiente de correlación
intraclase que da un valor de 0.843. ¿Qué respuesta considera que es la más
adecuada?
a. El instrumento es válido ya que el coeficiente de correlación intraclase da un
valor elevado
b. El instrumento no es válido porque el coeficiente de correlación intraclase es
inferior a 0.9
c. No se puede valorar la validez del instrumento porque el número de
individuos es insuficiente
d. No se puede valorar la validez porque no disponemos de un gold standard
que nos permita evaluar el error de medida sistemático.
e. El instrumento de medida es lo suficientemente fiable como para asumir que
el error sistemático es despreciable, y por lo tanto lo podemos considerar como
válido
Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line
del curso, que encontrará en el Campus del CEC.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
EJERCICIO 2
Se dispone de un método de detección de infecciones más rápido que el método
convencional (gold standard). No obstante, antes de su utilización se quiere comprobar
la validez y fiabilidad. Con este fin se recogen 50 muestras de individuos y se analizan
con el nuevo método (A) y el convencional (GS) que se usa como gold standard.
Los resultados observados fueron un 40% de positivos en A, mientras que en GS esta
proporción fue del 70%, y un 30% de positivos en las dos pruebas. Cuál de las
siguientes afirmaciones es cierta:
a. El P-valor de la prueba de McNemar es de 0.0051, por lo que se considera el
método A exacto.
b. El P-valor de la prueba de McNemar es de 0.0051, por lo que no se puede
considerar el método A como exacto.
c. El P-valor de la prueba de McNemar es de 0.51, por lo que se considera el
método A exacto.
d. El P-valor de la prueba de McNemar es de 0.51, por lo que no se puede
considerar el método A como exacto.
e. El P-valor de la prueba de McNemar es de 0.0051, por lo que no se puede
tomar una decisión sobre la exactitud del el método A.
Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line
del curso, que encontrará en el Campus del CEC.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
EJERCICIO 3
Continuando con el enunciado y los resultados obtenidos en el ejercicio 2, Calcule el
índice kappa y el coeficiente phi. ¿Cuál de las siguientes afirmaciones es cierta?
a. El método A es válido aunque no exacto.
b. El método A es válido aunque no fiable.
c. El método A no es válido por falta de exactitud y fiabilidad.
d. El método A no es válido por falta de exactitud pero es fiable.
e. El método A no es válido por falta fiabilidad pero no de exactitud.
Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line
del curso, que encontrará en el Campus del CEC.
EJERCICIO 4
Se desea utilizar una nueva técnica (A) para cuantificar la concentración de una
hormona en sangre ya que resulta menos costosa que la técnica común (GS). No
obstante se sospecha que la técnica A puede tener el inconveniente de dar lecturas
con un cierto error de medida. Con el objetivo de analizar la magnitud de dicho error
de medida se realiza un ensayo en el que se mide la concentración de la hormona en
30 individuos utilizando las dos técnicas (A y GS). El fichero “hormona.txt” contiene los
datos de este ensayo (delimitador: tabulador). Se considera que la técnica A es
aceptable si difiere como mucho en 0.5 unidades en la mayoría (95%) de las medidas.
Analice los datos y señale que afirmación es correcta:
a. La técnica A no es válida debido a que tiene error sistemático
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
b. La técnica A es válida si se corrige el error sistemático
c. La técnica A es válida debido a que carece de error sistemático
d. La técnica A es válida si se corrigen tanto el error sistemático como el aleatorio
e. La técnica A no es válida debido a que no se puede corregir el error aleatorio
Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line
del curso, que encontrará en el Campus del CEC.
EJERCICIO 5
Lea el artículo de Batista-Foguet et al. (2004) (ver lecturas recomendadas) y señale la
respuesta correcta.
a. El modelo factorial exploratorio es apropiado para evaluar la validez.
b. El coeficiente alfa de Cronbach es útil para evaluar la validez de un
cuestionario.
c. El coeficiente alfa de Cronbach estima correctamente la fiabilidad si los ítems
son tau-equivalentes (homogeneidad de covarianzas).
d. El análisis factorial confirmatorio es una técnica más restrictiva que la teoría
clásica del test.
e. El análisis factorial confirmatorio es útil en la validación de un cuestionario pero
no para estimar su fiabilidad.
Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line
del curso, que encontrará en el Campus del CEC.
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
FIGURAS
F 6·2 Paired T statics
F 6·2 Paired T statics
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
F 6·3 Simple Linear Regression
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
F 6·4 Simple Linear Regression
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
F 6·5 Compute expression
F 6·6 Paired T statistics
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
F 6·7 Simple Linear Regression
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
F 6·8 Figura 8
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
F 6·10 Figura 10
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS: MÓDULO IV
U6– Diseño y análisis de estudios de fiabilidad y validez
TABLAS
T 6·1 Taula 1
Valor del Coeficiente de Correlación Intraclase Fiabilidad
>0.9 Alta
0.7-0.9 Buena
0.5-0.7 Regular / Media
0.3-0.5 Baja
0.1-0.3 Mala
<0.1 Inexistente
T 6·2 Taula 2
Efecto Suma de cuadrados Grados de libertad Media de cuadrados
Entre individuos SSB n-1 MSB=SSB/(n-1)
Error SSE n(k-1) MSE=SSE/(n(k-1))
Total SST nk-1
T 6·3 Taula 3
Estudio
Anatomopatológico
Avanzado Localizado Total
Avanzado 45 50 95 Ultrasonidos
Localizado 60 90 150
Total 105 140 245