calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera...

32
73 Guías de Práctica Clínica Calidad de la evidencia y grado de recomendación Mercè Marzo Castillejo Cristina Viana Zulaica Introducción E n el capítulo 5 se han descrito los pasos a seguir en el proceso de elaboración de una Guía de Práctica Clínica (GPC). Se señaló que para dar respuesta a las pre- guntas clínicas y asegurar que las recomendaciones están basadas en la mejor evidencia disponible, los diferentes es- tudios identificados a partir de la búsqueda de la literatura se deben evaluar con la finalidad de disponer de los datos y de la información más apropiados (Shekelle PG, 1999) (lectura crítica de la literatura). El objetivo de este capítulo es revisar de forma más específica los apartados de sínte- sis de la evidencia y formulación de las recomendaciones. En el desarrollo de una GPC, los conceptos de calidad, nivel de evidencia y grado de recomendación forman el eje central de la definición de GPC basada en la evidencia, ya que son los instrumentos que intentan estandarizar y proporcionar a los clínicos reglas sólidas para valorar la investigación publicada, determinar su validez y resumir su utilidad en la práctica clínica (Upshur RE, 2003). Este proceso debería ser transpa- rente y realizarse de forma sistemática (NICE, 2004). La estrategia de separar los niveles de evidencia y los grados de recomendación tuvo su origen en la Canadian Task Force on Preventive Health Care (CTFPHC, 2005). La CTFPHC fue creada en el año 1976 a partir de una Conferencia de los Ministros de Sanidad de las diez provincias de Canadá. La CTFPHC , en el desarrollo de su meto- dología, contempló el peso de la evidencia científica para hacer recomendaciones ya fueran a favor o en contra de incluir intervenciones de prevención en las personas asintomáticas (CTFPHC, 2005). En esta metodología se introduce la noción de que la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que otros y, por lo tanto, justifican en menor medida las decisiones clínicas (Upshur RE, 2003). Posteriormente diferentes instituciones y sociedades científicas también han contemplado estas diferencias en la apreciación de la calidad de las evidencias y han ido desarrollando diversos sistemas de clasificación para evaluar y estructurar la evidencia y establecer los grados de recomendación. Actualmente existen más de 100 sistemas de clasificación para valorar la calidad de la evidencia (West S, 2002). Los conceptos de cali- dad, nivel de evidencia y grado de recomen- dación forman el eje central de la definición de GPC basada en la evidencia, ya que son los instrumentos que proporcionan a los clíni- cos reglas sólidas para valorar la investigación publicada, determinar su validez y su utilidad en la práctica clínica 6

Upload: others

Post on 13-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

73Guías de Práctica Clínica

Calidad de la evidencia y grado de recomendación

Mercè Marzo Castillejo Cristina Viana Zulaica

Introducción

En el capítulo 5 se han descrito los pasos a seguir en el proceso de elaboración de una Guía de Práctica Clínica (GPC). Se señaló que para dar respuesta a las pre-

guntas clínicas y asegurar que las recomendaciones están basadas en la mejor evidencia disponible, los diferentes es-tudios identificados a partir de la búsqueda de la literatura se deben evaluar con la finalidad de disponer de los datos y de la información más apropiados (Shekelle PG, 1999) (lectura crítica de la literatura). El objetivo de este capítulo es revisar de forma más específica los apartados de sínte-sis de la evidencia y formulación de las recomendaciones.

En el desarrollo de una GPC, los conceptos de calidad, nivel de evidencia y grado de recomendación forman el eje central de la definición de GPC basada en la evidencia, ya que son los instrumentos que intentan estandarizar y proporcionar a los clínicos reglas sólidas para valorar la investigación publicada, determinar su validez y resumir su utilidad en la práctica clínica (Upshur RE, 2003). Este proceso debería ser transpa-rente y realizarse de forma sistemática (NICE, 2004).

La estrategia de separar los niveles de evidencia y los grados de recomendación tuvo su origen en la Canadian Task Force on Preventive Health Care (CTFPHC, 2005). La CTFPHC fue creada en el año 1976 a partir de una Conferencia de los Ministros de Sanidad de las diez provincias de Canadá. La CTFPHC , en el desarrollo de su meto-dología, contempló el peso de la evidencia científica para hacer recomendaciones ya fueran a favor o en contra de incluir intervenciones de prevención en las personas asintomáticas (CTFPHC, 2005). En esta metodología se introduce la noción de que la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que otros y, por lo tanto, justifican en menor medida las decisiones clínicas (Upshur RE, 2003).

Posteriormente diferentes instituciones y sociedades científicas también han contemplado estas diferencias en la apreciación de la calidad de las evidencias y han ido desarrollando diversos sistemas de clasificación para evaluar y estructurar la evidencia y establecer los grados de recomendación. Actualmente existen más de 100 sistemas de clasificación para valorar la calidad de la evidencia (West S, 2002).

Los conceptos de cali-dad, nivel de evidencia y grado de recomen-dación forman el eje central de la definición de GPC basada en la evidencia, ya que son los instrumentos que proporcionan a los clíni-cos reglas sólidas para valorar la investigación publicada, determinar su validez y su utilidad en la práctica clínica

6

Page 2: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

74 Guías de Práctica Clínica

Más adelante, en otro apartado de este capítulo, se describen las clasificaciones más conocidas y utilizadas en nuestro medio:nCanadian Task Force on Preventive Health Care (CTFPHC, 2003; CTFPHC,

2005; Harris RP, 2001). nUS Preventive Services Task Force (USPSTF). (actualmente integrada en la

Agency fornHealthcare Research and Quality-AHRQ) (Harris RP, 2001; USPSTF, 2003). nUS Agency for Health Care Policy and Research (actualmente denominada

AHRQ) (AHRQ, 2005). nCentro de Medicina Basado en la Evidencia de Oxford (OCEBM, 2005). nScottish Intercollegiate Guidelines Network (SIGN, 2008). nNational Institute for Clinical Excellence (NICE, 2008).

En la mayoría de las clasificaciones se opta por señalar unos niveles de evi-dencia y grado de recomendaciones que sólo tienen en cuenta los estudios sobre intervenciones terapéuticas. La clasificación del Centro de Medicina Basada en la Evidencia de Oxford, se justifica por la necesidad de evaluar no sólo las inter-venciones terapéuticas y preventivas, sino también aquellas ligadas al diagnós-tico, pronóstico, factores de riesgo y evaluación económica (OCEBM, 2005). La clasificación de NICE opta por adaptar la clasificación de SIGN para estudios de intervención y la clasificación de Oxford para estudios de pruebas diagnósticas (NICE, 2008).

La descripción de las clasificaciones disponibles, su calidad y limitaciones han sido evaluadas por diferentes autores. Para las personas interesadas en profundizar en el tema se puede ampliar información con los siguientes documentos de revisión: Una de estas revisiones es la realizada por la AHRQ, donde se evalúan 19 clasifica-ciones (West S, 2002) y la otra realizada por el grupo de trabajo de GRADE donde se evalúan 7 de estas clasificaciones (GRADE, 2004).

La proliferación de clasificaciones para evaluar y clasificar la evidencia y las di-ferentes interpretaciones de los grados de evidencia plantea potenciales problemas

para los usuarios (Upshur RE, 2003; Atkins D, 2004). Por un lado, esta situación entra en contradicción con el propio concepto de Medicina Basada en la Evidencia (MBE), ya que la MBE es un instrumento que en parte ha sido crea-do para reducir las inconsistencias innecesarias y ayudar a estandarizar la práctica clínica. Y en consecuencia, los diferentes criterios de las clasificaciones disponibles y las inconsistencias en la nomenclatura, introducen una amplia gama de variabilidad en las prácticas basadas en la evi-dencia científica (Upshur RE, 2003).

En el año 2000 y con el objetivo de abordar las deficien-cias de los actuales sistemas de clasificación, personas de las diferentes instituciones que han desarrollado estas cla-sificaciones y/o elaboran GPC crearon el grupo de trabajo “Grading of Recommendations Assessment, Development and Evaluation (GRADE) Working Group” (Atkins D, 2004;

La existencia de diferen-tes clasificaciones para evaluar y clasificar la evidencia y las diferen-tes interpretaciones de los grados de evidencia hace que en el año 2000 se cree el grupo de tra-bajo GRADE. Este gru-po que intenta construir y validar una clasificación que equilibre la sencillez con la necesidad de inte-grar todos los aspectos importantes a la hora de evaluar las evidencias y graduar las recomenda-ciones.

Page 3: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

75Guías de Práctica Clínica

GRADE, 2005). Este grupo de trabajo ha desarrollado el sistema GRADE, el cual per-sigue hacer juicios más coherentes y que la comunicación de dichos juicios pueda respaldar opciones mejor fundamentadas en la atención sanitaria (Atkins D, 2004). El nuevo sistema para guiar los juicios complejos trata de equilibrar la necesidad de sencillez con la necesidad de considerar de forma global y transparente todos los aspectos importantes de la gradación de la evidencia. Los autores de GRADE han desarrollado ampliamente el instrumento para evaluar los estudios de intervención y actualmente se está avanzando en la validación de esta clasificación para los estudios de diagnóstico. El grupo GRADE publicó su primer artículo explicando en qué consiste esta clasificación en un BMJ del año 200415, y la traducción de este artículo al caste-llano se puede encontrar en la web [http://www.gradeworkinggroup.org/].

Experiencia sobre la síntesis de evidencias en nuestro medio

En nuestro medio la elaboración de GPC basadas en la evidencia científica no es todavía muy abundante. Hace unos años ya constatamos que las instituciones

que empezaron a elaborarlas con una metodología rigurosa se podían contar con los dedos de una mano (Marzo M, 2002). Actualmente, y según podemos identificar a través del portal GuíaSalud, las GPC que han cumplido los criterios de calidad y que están en este catálogo del Sistema Nacional de Salud, todavía son muy escasas (GuiaSalud, 2005).

En nuestro entorno, los diferentes grupos que están elaborarndo GPC, han bus-cando información en las mismas fuentes y han revisado los documentos y materia-les de los grupos internacionales (SIGN, New Zealand, AHQR yNICE) que elaboran GPC. Sin embargo las diferentes instituciones elaboradoras de guías en nuestro medio, ha optado por una clasificación diferente. A modo de ejemplos las GPC de Osakidetza han utilizado la clasificación de SIGN, en el Institut Català de la Salut, la clasificación de la AHQR y en el proyecto de semFYC junto a las diversas sociedades científicas y el Centro Cohrane Iberoamericano, la clasificación de Oxford. Posible-mente esto haya generado un poco más de inconsistencia y confusión a los usuarios de nuestras GPC. No obstante, algunas de estas instituciones ya están debatiendo la pertinencia de utilizar el sistema de clasificación GRADE (NICE, 2008). En el anexo 2, transcribimos una nota metodológica sobre el sistema de clasificación GRADE elaborada para la revista de Atención primaria basada en la evidencia.

Aspectos metodológicos en el proceso de la síntesis de la evidencia y grado de recomendación

Independientemente de la clasificación escogida, en todo proceso de elaboración de una GPC se deben seguir una serie de pasos que a continuación vamos a

describir.

Identificar la evidencia Es un paso preparatorio al proceso de clasificar la calidad de la evidencia y graduar las recomendaciones y esencial para articular las respuestas a las preguntas clínicas. Es una tarea laboriosa, en la que se trata de encontrar la mejor evidencia a partir de una búsqueda de la bibliografía en las fuentes más relevantes, con rigor y con la mínima presencia de sesgos (NICE, 2008). En este punto el objetivo también es

Page 4: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

76 Guías de Práctica Clínica

identificar aspectos en los que la falta de evidencias haga necesario articular métodos de consenso.

La búsqueda bibliográfica se debe realizar mediante una estrategia que ha de ser sensible (habilidad para encontrar información relevante) y específica (habilidad para

excluir documentos irrelevantes), cualidades relacionadas con los descriptores utilizados y el período de tiempo esta-blecido entre los límites. El grupo elaborador tras consultar a expertos en el tema objeto de la guía decide los límites que se establecen. Se intentará incluir los años en los que se hayan publicado más estudios y con resultados más rele-vantes. Si existe una revisión sistemática (RS), la búsqueda adicional se limitará a la actualización tras la publicación de la RS, en los casos en los que la RS no mencione todos los resultados relevantes nos plantearemos realizar una nueva búsqueda. En ocasiones es necesario contactar con los au-tores de los trabajos publicados o pendientes de publicación (NICE, 2008).

Todos los pasos mencionados deben ser repetibles y trasparentes, documentado la estrategia de búsqueda, y los criterios de inclusión y exclusión de los originales para identificar evidencias, así como los términos elegidos.

Al identificar la evidencia hay una serie de documentos que deberían ser excluidos (NICE, 2008): nEstudios con diseños poco adecuados si hay documentos de mejor calidad.nMaterial comercial.nFolletos divulgativos.nArtículos, comentarios y editoriales que interpretan los resultados de lo pu-

blicado.nExperiencias individuales salvo que formen parte de un estudio bien diseñado.

Revisión y gradación de la evidenciaLos estudios encontrados tras la búsqueda se revisarán para elegir los que ofrecen datos más útiles para responder a las preguntas clínicas y asegurar que las reco-mendaciones están basadas en la mejor evidencia. Estos pasos, al igual que en apartado anterior, se deben realizar de manera explícita, reproducible y transparen-te (Gómez E, 1999). La revisión se llevará a cabo mediante un proceso de revisión sistemática que incluye lo siguiente (NICE, 2008):

Selección de estudios relevantesAntes de disponer de los artículos completos se hace un proceso de criba que incluye varios pasos, en cada uno de ellos se elimina aquel material no relevante según los criterios predefinidos:nLectura de los títulos.nLectura de los resúmenes. nExamen de los resúmenes en función de los objetivos de la guía. nRevisión de documento completo.

El grupo de elaboración de la guía además de identificar la información suministrada por la lite-ratura científica necesita conocer el funciona-miento de los servicios sanitarios, el nivel de ac-tividad y las variaciones locales que puedan ser significativas. Esta infor-mación ayuda a identifi-car las diferencias entre la práctica clínica actual y la ideal y las experien-cias de los pacientes, de tal manera que las reco-mendaciones tengan el máximo impacto.

Page 5: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

77Guías de Práctica Clínica

Para evitar sesgos se recomienda que dos personas individualmente repitan el mismo proceso con una selección aleatoria de resúmenes (Gómez E, 1999).

Evaluación de la calidad de los estudiosUna vez que se han seleccionado los estudios, el siguiente paso es evaluar su calidad y validez. La evaluación se realiza cumplimentando una planilla de lectura crítica que consta de una serie de preguntas específicas acerca del diseño y resultados del estudio. Las planillas con los criterios de calidad son diferentes según el tipo de estudio (ensayo clínico, estudios de cohortes, estudios de pruebas diagnósticas) y para cada estudio la evaluación se realiza de acuerdo a los aspectos que se recogen en cada una de las planillas (INFAC, 2002).

En nuestro medio las planillas de lectura crítica más utilizadas por los ela-boradores de GPC son las de SIGN, que podemos encontrar en su manual para elaboradores de GPC (SIGN 50) SIGN, 2008), el cuál está traducido al español y también las planillas de CASPE, a las cuáles se puede acceder a través de Internet (CASPE, 2005).

La evaluación es un aspecto clave en la revisión y la deberían realizar al menos 2 revisores de forma independiente. Para la evaluación global de cada estudio muchos elaboradores de guías utilizan la escala “++”, “+” ó “-”, que refleja la posibilidad de ausencia de sesgos. El resultado de la evaluación definirá el nivel de evidencia del estudio y su consiguiente impacto en la clase de la recomendación.

Síntesis de los resultadosObtención de los datos y tablas de evidencia:

Los resultados de la evaluación se incluyen en una tabla de evidencia, estas tablas ayudan a identificar los parecidos y diferencias entre los estudios en sus as-pectos clave: características de la población, intervenciones y medidas de resultado.

Las tablas de evidencia facilitan la comparación y ayu-dan a comprobar la posibilidad de calcular un estimador de efecto. La síntesis de la evidencia puede realizarse por mé-todos cualitativos y cuantitativos. Los métodos cualitativos consisten en resumir lo encontrado en los estudios indivi-duales que reflejen con la mayor exactitud la relevancia de la evidencia encontrada. Los métodos cuantitativos se usan cuando existen estudios con el mismo diseño y se dispone de los datos necesarios, se utiliza una técnica estadística que combina los resultados de diferentes estudios con el mismo diseño que es el metaanálisis. Mediante análisis de sensibilidad se puede conocer el impacto de los datos perdi-dos (NICE, 2008).

La evaluación conjunta de los distintos estudios se recoge en forma de una tabla de evidencia que resume la calidad global de la evidencia y el balance entre los beneficios y los riesgos. Al resumir la información hemos de tener en cuenta:nEl volumen de la evidencia: ¿De cuántos estudios disponemos? ¿De cuántos

pacientes disponemos?

Para realizar la elimi-nación de los trabajos no relevantes de la se-lección producto de la búsqueda bibliográfica se realiza un proceso de criba cuyos dos primeros pasos son la lectura de los títulos y de los resú-menes de los trabajos seleccionados.

Page 6: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

78 Guías de Práctica Clínica

nLa validez interna: ¿Qué calidad tienen los estudios? ¿Qué tipo de sesgos les afecta?

nLa aplicabilidad: ¿Hasta qué punto se pueden aplicar estas intervenciones a nuestra población? ¿Estas intervenciones están disponibles en aquellos luga-res donde se ha de implementar la GPC?

nGeneralización/Validez externa: ¿Hasta que punto se pueden extrapolar los da-tos de otras poblaciones?: Riesgo basal, edad, etc. Personal capacitado, otros actores culturales.

nConsistencia: ¿Los resultados de los estudios son consistentes: en los diferen-tes diseños de estudios, entre diferentes poblaciones?

nImpacto clínico: Teniendo en cuenta el tamaño de la muestra, la magnitud del efecto, el beneficio relativo comparando con otras opciones, recursos implica-dos, los costes, el balance entre beneficios y riesgos.

Niveles de evidencia:A los estudios de intervención que reúnen un mínimo de criterios de calidad se les asignan a un nivel de evidencia que será útil tanto para el grupo elaborador, como para que los usuarios de la guía conozcan el tipo de evidencia en el que se ha basado la recomendación.

En este punto y teniendo en cuenta la necesidad de escoger una clasificación, nos parece que hasta que la colaboración internacional no llegue a un acuerdo, la opción de NICE es muy acertada. Como hemos comentado en los apartados previos

NICE ha optado por utilizar la clasificación de SIGN para los estudios de intervención y la clasificación de Oxford para los estudios de diagnósticos [Anexo 1: Descripción de las clasificaciones más conocidas y utilizadas en nuestro medio (al final del capítulo)]. No obstante, pensamos que en un futuro próximo GRADE será una realidad a nivel interna-cional. Y como hemos descrito en el anexo 2 la iniciativa GRADE en el apartado de calidad de la evidencia, propone juzgar la calidad de la evidencia en los diferentes estudios para cada una de las variables (resultados importantes), tener solo en cuenta las variables clave a la hora de tomar una decisión y describir la calidad global a partir de las variables clave.

Gradación de la evidenciaAl realizar la evaluación de la calidad, como hemos comentado, a los artículos se les asigna un código que se representa “++”, “+” ó “-”. Los estudios incluidos en el grupo “-”, en general, no se usan para sentar recomendaciones (NICE, 2008), pero se consideran las siguientes posibilidades:nSi hay estudios de buena calidad que ayuden a responder a las preguntas clíni-

cas y sus resultados son consistentes, se rechazan los estudios del grupo “-”.nSi las conclusiones de los estudios clasificados como “-” forman parte de un

cuerpo de evidencia razonable que muestra las mismas conclusiones, aunque de manera débil, que otros estudios “-”, se pueden incluir en la tabla de evi-dencia para demostrar el alcance de la consistencia.

Las tablas de evidencia facilitan la comparación y ayudan a comprobar la posibilidad de calcular un estimador de efecto, cuando se comparan es-tudios cuantitativos con el mismo diseño y se dis-pone de los datos nece-sarios se puede realizar un metaanálisis.

Page 7: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

79Guías de Práctica Clínica

nSi los estudios “-” sugieren una diferencia en los resultados se deben dejar en la tabla de evidencia para ser discutido posteriormente en el grupo.

Elaboración de recomendaciones El grupo de elaboración de la guía además de identificar la información suministra-da por la literatura científica necesita conocer el funcionamiento de los servicios sanitarios, el nivel de actividad y las variaciones locales que puedan ser significativas. Esta información ayuda a identificar las diferencias de la práctica clínica actual, la provisión de servicios y las experiencias de los pacientes, de tal manera que la orientación de las recomendaciones tenga el máximo impacto en los servicios y en los resulta-dos (NICE, 2008).

Todo el material previo (búsqueda bibliográfica, plani-llas de lectura crítica, tabla de evidencia, etc.) nos sirve de base para elaborar las recomendaciones. Esta elaboración se produce a partir de la interpretación de las pruebas científicas disponibles y es derivada de un método de con-senso que inevitablemente involucra valores de juicio por parte del grupo que elabora la GP. Este proceso debe ser explícito, para que el juicio hecho a partir de las evidencias sea lo más claro posible (NICE, 2008).

Diferentes factores contribuyen al proceso de elabora-ción de las recomendaciones: nLa naturaleza de la evidencia (susceptibilidad al sesgo). nAplicabilidad de la evidencia a la población de interés. nCostos. nCaracterísticas del sistema de salud. nCreencias y valores de grupo que confecciona las recomendaciones.

Las recomendaciones de la guía generalmente se clasifican de acuerdo al peso de la evidencia sobre la que se apoyan. Es importante esto y que las recomendaciones estén formuladas de manera clara. Muchos usuarios de las guías se centran exclusi-vamente en la lectura de las recomendaciones sin examinar el documento completo de la guía, la clasificación del grado de recomendación supone una indicación de la confianza en que se producirán los resultados deseados.

Los pasos a seguir en el desarrollo de las recomendaciones son:nTraducir la evidencia en recomendaciones. Una vez que se ha examinado la evidencia y se ha discutido su adecuación

para responder a las preguntas clínicas es necesario transformarla en reco-mendación. Si el peso de la evidencia es muy fuerte (nivel 1 de evidencia), el proceso se puede realizar de manera sencilla. En muchos casos el peso de la evidencia no está tan claro.

nRedactar las recomendaciones. Es un aspecto muy importante por el motivo ya comentado, puede ser la única

referencia para un número importante de usuarios. El grupo de elaboración

Todo el material pro-ducto de los diferentes pasos de la elaboración de la guía: búsqueda bibliográfica, planillas de lectura crítica, tabla de evidencia, etc., sir-ve de base al grupo de trabajo de la GPC para elaborar las recomenda-ciones, para ello realiza una interpretación de las pruebas científicas disponibles y mediante un método de consenso se alcanza un acuerdo sobre el contenido de las mismas.

Page 8: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

80 Guías de Práctica Clínica

debe estar de acuerdo con el resultado final. Algunos aspectos a tener en cuenta a la hora de redactar las recomendaciones son (NICE, 2008): Redactar de una en una. Redacción no ambigua. Estar orientadas a la acción. Ordenadas por tema y siempre que sea posible asignada a una grupo de-

terminado. No utilizar nombres comerciales en el caso de fármacos o de técnicas co-

mercializadas. No incluir dosis de fármacos. Explicitar cuando la recomendación de un fármaco en la GPC es con una

indicación no incluida en su ficha técnica. Utilizar técnicas que mejoren la calidad de presentación de las recomenda-

ciones.Resaltadas claramente respecto a los comentarios que se hagan.Las recomendaciones deben tener en consideración al paciente, intentarán

evitar el uso de palabras tales como “sujeto” en lugar de “personas” o “pacientes”.

nClasificando las recomendaciones. Enlazando con el apartado de niveles de evidencia y siguiendo la clasificación

escogida (SIGN para estudios de intervención y Oxford para pruebas diagnósti-cas), las recomendaciones se han de clasificar de acuerdo al peso de la eviden-cia sobre la que se sustentan.

Actualmente, y como hemos comentado en la introducción, se cuestiona la utilidad de un sistema de clasificación basado solamente en el nivel de evidencia porque no tiene en cuenta la importancia de la actualización de las recomendaciones en la práctica y la mejora del cuidado del paciente. El desarrollo de la iniciativa GRADE persigue que en un futuro se puedan incluir estos aspectos a la hora de presentar las recomendaciones de las GPC.

Esta iniciativa, en el apartado de fuerza de la recomendación, tiene en cuenta las consideraciones acerca de: todas las variables de resultado claves, la cali-dad de la evidencia, el balance entre beneficios y riesgos, la contextualización de la evidencia a las circunstancias específicas (valores y preferencias), la incertidumbre sobre el riesgo basal, así como la consideración de los costes (utilización de recursos). Y a modo de ejemplo la categoría de recomendación sugerida por GRADE de Hazlo (‘’recomendamos’’ o ‘’deberíamos recomendar’’) es un recomendación fuerte a favor de, e indica que los beneficios claramente sobrepasan los riesgos y que la gran mayoría de personas bien informadas harían la misma elección (alta confianza, poca incertidumbre).

nPriorización de las recomendaciones para la implementación. Muchas guías con frecuencia contienen un número considerable de reco-

mendaciones producto de una importante cantidad de preguntas clínicas, la priorización de las recomendaciones se hace con el objetivo de ayudar a los usuarios de las guías, y resaltar criterios que puedan ser utilizados como indicadores de calidad asistencial. Es recomendable priorizar un número de recomendaciones que no sea superior a diez. Se pueden usar muchos criterios

Page 9: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

81Guías de Práctica Clínica

para realizar la selección, no existen normas escritas de cómo hacerlo pero es importante tener en cuenta (NICE, 2008):El alto impacto clínico. Un alto impacto en la reducción de la variabilidad. Implica un uso más eficiente de los recursos.

Decisiones de grupo y consenso

La elaboración de una GPC en muchas ocasiones exige que los miembros del grupo tomen decisiones colectivas. Desde la realización de preguntas clínicas a

la elaboración de recomendaciones. No hay normas en las que basarse para decidir cual es la manera más adecuada de hacerlo. De manera práctica se recurre a los métodos de consenso que se describen a continuación (NICE, 2008).

Grupos focalesMétodo útil para usar en temas en los que no se dispone de información suficiente para formular una recomendación, permite interpretar con mayor profundidad pers-pectivas especiales, como ocurre, por ejemplo, con grupo étnicos o inmigrantes.

Métodos formales de consensoOfrecen una alternativa explícita y transparente para el proceso de toma de decisio-nes. La elección de uno de estos métodos formales que seguidamente describimos, está en función de las ventajas e inconvenientes de la pregunta a responder, de las necesidades del grupo y de la disponibilidad de tiempo. En muchas ocasiones se usan fórmulas híbridas para hacerlas más operativas. Es importante describir el proceso usado y sus resultados. Los casos en los que el grupo no cumple las condiciones de un grupo de consenso han de quedar reflejados en el documento, detallando los aspectos en los que no ha habido convergencia. Hemos de señalar la importancia del papel del facilitador en la calidad del proceso para cada uno de los tres métodos que se describen (Fitch K, 2001).

Técnica de DelphiSe realizan varios envíos por correo a los participantes, en el primero de ellos se pre-gunta sobre su opinión de un tema determinado. En envíos sucesivos los participantes reciben un resumen de los resultados de las rondas anteriores con la posibilidad de revisar sus opiniones. Los participantes no se relacionan entre sí. Las opiniones de los participantes se agregan mediante métodos estadísticos. Este método tiene la ventaja de que se realiza intercambio de información entre una cantidad importante de personas sin gran coste, tiene el inconveniente de que se pierden los aspectos positivos del debate del grupo.

Técnica de grupo nominalEs una técnica de identificación y de priorización que permite obtener resultados de manera rápida aunque con menos consenso. Los participantes convocados por correo o de manera presencial elaboran un listado individualmente, la lista de ideas se devuelve a las personas cuando están reunidas para debatir sobre ellas, poste-riormente se emite un voto en privado. Es muy importante el papel del facilitador, cada idea se discute por turno y se discuten todas las ideas.

Page 10: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

82 Guías de Práctica Clínica

Conferencia de consensoConsiste en un grupo seleccionado de 10 personas que se reúnen para conseguir un consenso, el grupo se complementa con expertos que no toman parten de las decisiones del grupo. Tras escucharles se retiran y consideran las preguntas a la luz de la evidencia presentada e intentan alcanzar el consenso. Las partes abiertas y las privadas del proceso son compartidas.

Método RandTécnica de consenso que es una modificación del método de Delphi al que incorpora elementos de la técnica de grupo nominal. Se considera un método más explícito y reproductible. En nuestro medio se ha utilizado con éxito para la elaboración de guías con escasas evidencias de calidad (Alonso C, 2003).

Descripción de las clasificaciones más conocidas y utilizadas en nuestro medioCanadian Task Force on Preventive Health Care (CTFPHC)

Tabla 1. Grados de recomendación para las intervenciones específicas de prevención

A Existe buena evidencia para recomendar la intervención clínica de prevención.

B Existe moderada evidencia para recomendar la intervención clínica de preven-ción.

CLa evidencia disponible es conflictiva y no permite hacer recomendaciones a favor o en contra de la intervención clínica preventiva; sin embargo, otros factores podrían influenciar en la decisión.

D Existe moderada evidencia para recomendar en contra de la intervención clínica de prevención.

E Existe buena evidencia para recomendar en contra la intervención clínica de prevención.

I Existe evidencia insuficiente (en cantidad y en cualidad) para hacer una reco-mendación; sin embargo, otros factores podrían influenciar en la decisión.

Tabla 2. Niveles de evidencia - Graduación de los diseños de estudio.

I Evidencia a partir de ensayos clínicos aleatorizados.

II-1 Evidencia a partir de ensayos clínicos sin aleatorización.

II-2 Evidencia a partir de estudios de cohortes y casos y controles, preferiblemente realizados por más de un centro o grupo de investigación.

II-3Evidencia a partir de comparaciones en el tiempo o entre sitios, con o sin la intervención; podrían incluirse resultados espectaculares provenientes de es-tudios no aleatorizados.

III Opinión de expertos, basados en la experiencia clínica; estudios descriptivos o informes de comités de expertos.

Page 11: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

83Guías de Práctica Clínica

Tabla 3. Niveles de evidencia - Calidad de la graduación (validez interna)

Buena Un estudio (incluyendo el meta-análisis y la revisión sistemática) que cumple los criterios específicos de estudio bien diseñado*.

Moderada

Un estudio (incluyendo el meta-análisis y la revisión sistemática) que no cumple (o no está claro que cumpla) al menos uno de los criterios específicos de estudio bien diseñado*, aunque no tiene ’’defectos fatales’’.

Insuficiente

Un estudio (incluyendo el meta-análisis y la revisión sistemática) que tiene en su diseño al menos un ’’defecto fatal’’ o no cumple (o no está claro que cumpla) al menos uno de los criterios específicos de estudio bien diseñado*, aunque no presenta’’errores fatales’’ o una acumulación de defectos menores que hagan que los resulta-dos del estudio no permitan elaborar las recomendaciones.

U.S. Preventive Services Task Force (USPSTF)The U.S. Preventive Services Task Force (USPSTF) gradúa sus recomendaciones según una de estas cinco clasificaciones (A, B, C, D, I) reflejando la fuerza de la recomendación y la magnitud del beneficio neto (beneficio menos riesgo).

Tabla 1. Fuerza de las recomendaciones

A

La USPSTF recomienda claramente que los clínicos proporcionen la inter-vención a los pacientes que cumplan los criterios. La USPSTF ha encontrado buena evidencia de que la medida mejora de manera importante los resul-tados en salud y concluye que los beneficios superan ampliamente a los riesgos).

B

La USPSTF recomienda que los clínicos proporcionen la intervención a los pacientes. La USPSTF ha encontrado evidencia moderada de que la medida mejora de manera importante los resultados en salud y concluye que los beneficios superan a los riesgos.

C

La USPSTF no recomienda a favor o en contra de la intervención. La USPS-TF ha encontrado al menos evidencia moderada de que la medida puede mejorar los resultados en salud, pero los beneficios son muy similares a los riesgos y no puede justificarse una recomendación general.

D

La USPSTF recomienda en contra que los clínicos proporcionen la inter-vención a los pacientes asintómaticos. La USPSTF ha encontrado al menos evidencia moderada de que la medida es ineficaz o que los riesgos superan a los beneficios.

I

La USPSTF concluye que la evidencia es insuficiente para recomendar a favor o en contra de la intervención. No existe evidencia de que la interven-ción es ineficaz, o de calidad insuficiente, o conflictiva y que el balance entre los riesgos y los beneficios no se puede determinar.

Page 12: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

84 Guías de Práctica Clínica

Tabla 2. Niveles de evidencia - Calidad de la evidencia

BuenaLa evidencia incluye resultados consistentes a partir de estudios bien diseñados y realizados en poblaciones representativas que directa-mente evalúan efectos sobre resultados de salud.

Moderada

La evidencia es suficiente para determinar efectos sobre resultados de salud, pero la fuerza de la evidencia es limitada por el número, la calidad, o la consistencia de los estudios individuales, la generaliza-ción a la práctica rutinaria, o la naturaleza indirecta de la evidencia sobre los resultados de salud.

Insuficiente

La evidencia es insuficiente para evaluar los efectos sobre los re-sultados de salud debido al número limitado o al poder de estudios, defectos importantes en su diseño o realización, inconsistencias en la secuencia de la evidencia, o falta de información sobre resultados de salud importantes.

Agency for Healthcare Research and Quality (AHRQ)

Tabla 1. Grados de recomendación

A Existe buena evidencia en base a la investigación para apoyar la recomendación.

B Existe moderada evidencia en base a la investigación para apoyar la recomen-dación.

C La recomendación se basa en la opinión de expertos o en un panel de consenso.

X Existe evidencia de riesgo para esta intervención.

Tabla 2. Clasificación de las recomendaciones en función del nivel de evidencia disponible

Ia La evidencia científica procede a partir de meta-análisis de ensayos clínicos controlados y aleatorizados.

Ib La evidencia científica procede de al menos un ensayo clínico controlado y aleatorizado.

IIa La evidencia científica procede de al menos un estudio prospectivo controla-do, bien diseñado y sin aleatorizar.

IIb La evidencia científica procede de al menos un estudio casi experimental, bien diseñado.

III La evidencia científica procede de estudios descriptivos no experimentales, bien diseñados como estudios comparativos, de correlación o de casos y controles.

IV La evidencia científica procede de documentos u opiniones de expertos y/o experiencias clínicas de autoridades de prestigio.

A Recoge los niveles de evidencia científica Ia y Ib.

B Recoge los niveles de evidencia científica IIa, IIb y IIII.

A Recoge el nivel de evidencia IV.

Page 13: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

85Guías de Práctica Clínica

Centre for Evidence-Based Medicine, Oxford (OCEBM)

Tabla 1. Estudios sobre tratamiento, prevención, etiología y complicaciones

Grado de recomen-dación

Nivel de eviden-cia

Fuente

Ib 1 a Revisión sistemática de ECA, con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

IIa 1 b ECA individual (con intervalos de confianza estrechos).

IIb 1 c Eficacia demostrada por la práctica clínica y no por la experimenta-ción.

III 2 a Revisión sistemática de estudios de cohortes, con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

IV 2 b Estudio de cohortes individual y ensayos clínicos aleatorios de baja calidad (< 80% de seguimiento).

A 2 c Investigación de resultados en salud.

B 3 a Revisión sistemática de estudios de casos y controles, con homo-geneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

3 b Estudios de casos y controles individuales.

A 4 Serie de casos y estudios de cohortes y casos y controles de baja calidad.

*Si tenemos un único estudio con IC amplios o una revisión sistemática con heterogenei-dad estadísticamente significativa, se indica añadiendo el signo (-) al nivel de evidencia que corresponda y la recomendación que se deriva es una D.

Tabla 2. Estudios de historia natural y pronóstico

Grado de recomen-dación

Nivel de eviden-cia

Fuente

A

1 a Revisión sistemática de estudios de cohortes, con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección y GPC validadas.

1 b Estudios de cohortes individuales con > 80% de seguimiento.

1 c Resultados a partir de la efectividad y no de su eficacia demos-trada a través de un estudio de cohortes.

B

2 a

Revisión sistemática de estudios de cohorte retrospectiva o de grupos controles no tratados en un ECA, con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

2 b Estudio de cohorte retrospectiva o seguimiento de controles no tratados en un ECA, o GPC no validadas.

2 c Investigación de resultados en salud.C 4 Serie de casos y estudios de cohortes de pronóstico de poca calidad.*Si tenemos un único estudio con IC amplios o una revisión sistemática con heterogenei-dad estadísticamente significativa, se indica añadiendo el signo (-) al nivel de evidencia que corresponda y la recomendación que se deriva es una D.

Page 14: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

86 Guías de Práctica Clínica

Tabla 3. Estudios de diagnóstico

Grado de recomen-dación

Nivel de eviden-cia

Fuente

A

1 a

Revisión sistemática de estudios diagnósticos de nivel 1 (alta calidad), con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección y GPC validadas.

1 b

Estudios de cohortes que validen la calidad de una prueba es-pecífica, con unos buenos estándares de referencia (indepen-dientes de la prueba) o a partir de algoritmos de estimación del pronóstico o de categorización del diagnóstico.

1 cPruebas diagnósticas con especificidad tan alta que un resulta-do positivo confirma el diagnóstico y con sensibilidad tan alta que un resultado negativo descarta el diagnóstico.

B

2 a Revisión sistemática de estudios diagnósticos de nivel 2 (me-diana calidad) con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

2 b

Estudios exploratorios que, a través de p. e. una regresión logística, determinan qué factores son significativos, y que sean validados con unos buenos estándares de referencia (independientes de la prueba), o a partir de algoritmos de estimación del pronóstico o de categorización del diagnósti-co, o de validación de muestras separadas.

3 b

Comparación cegada u objetiva de un espectro una cohorte de pacientes que podría normalmente ser examinado para un determinado trastorno, pero el estándar de referencia no se aplica a todos los pacientes del estudio.

C 4

- Los estándares de referencia no son objetivables, cegados o independientes.

- Las pruebas positivas y negativas son verificadas usando es-tándares de referencia diferentes.

- El estudio compara pacientes con un trastorno determinado conocido con pacientes diagnosticados de otra condición.

D 5Opinión de expertos sin valoración crítica explícita, ni basada en fisiología, ni en investigación juiciosa ni en los principios fundamentales.

Page 15: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

87Guías de Práctica Clínica

Tabla 4. Análisis económico y análisis de decisiones.

Grado de recomen-dación

Nivel de evidencia Fuente

A

1 a Revisión sistemática de estudios económicos de nivel 1 (alta calidad), con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

1 bAnálisis basados en los costes clínicos o en sus alternativas; revisiones sistemáticas de la evidencia; e inclusión de análisis de análisis de sensibilidad.

1 cAnálisis en términos absolutos de riesgos y beneficios clíni-cos: claramente tan buenas o mejores, pero más baratas, claramente tan malas o peores pero más caras.

B

2 a Revisión sistemática de estudios económicos de nivel 2 (me-diana calidad) con homogeneidad, o sea que incluya estudios con resultados comparables y en la misma dirección.

2 bAnálisis basados en los costes clínicos o en sus alternativas; revisiones sistemáticas con evidencia limitada; estudios indi-viduales; e inclusión de análisis de análisis de sensibilidad.

2 c Investigación de resultados en salud.

3 bAnálisis sin medidas de coste precisas pero incluyendo un análisis de sensibilidad que incorpora variaciones clínicamen-te sensibles en las variables importantes.

C 4 Análisis que no incluye análisis de la sensibilidad.

D 5 Opinión de expertos sin valoración crítica explícita, ni basada en teorías económicas.

Scottish Intercollegiate Guidelines Network (SIGN)

Tabla 1. Niveles de evidencia

1++ Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos alea-torizados o ensayos clínicos aleatorizados con muy bajo riesgo de sesgos.

1+ Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleatorizados o ensayos clínicos aleatorizados con bajo riesgo de sesgos.

1- Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleatorizados o ensayos clínicos aleatorizados con alto riesgo de sesgos.

2++

Revisiones sistemáticas de alta calidad de estudios de cohortes o de casos-controles, o estudios de cohortes o de casos-controles de alta calidad, con muy bajo riesgo de confusión, sesgos o azar y una alta probabilidad de que la relación sea causal.

2+Estudios de cohortes o de casos-controles bien realizados, con bajo riesgo de confusión, sesgos o azar y una moderada probabilidad de que la relación sea causal.

2- Estudios de cohortes o de casos y controles con alto riesgo de sesgo.3 Estudios no analíticos, como informe de casos y series de casos.4 Opinión de expertos.

Page 16: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

88 Guías de Práctica Clínica

Tabla 2. Grados de Recomendación

A

Al menos un metaanálisis, revisión sistemática o ensayo clínico aleatori-zado calificado como 1++ y directamente aplicable a la población objeto, o una revisión sistemática de ensayos clínicos aleatorizados o un cuerpo de evidencia consistente principalmente en estudios calificados como 1+ directamente aplicables a la población objeto y que demuestren global-mente consistencia de los resultados.

B

Un volumen de evidencia que incluya estudios calificados como 2++ directamente aplicables a la población objeto y que demuestren global-mente consistencia de los resultados, o extrapolación de estudios califi-cados como 1++ o 1+.

C

Un volumen de evidencia que incluya estudios calificados como 2+ direc-tamente aplicables a la población objeto y que demuestren globalmente consistencia de los resultados, o extrapolación de estudios calificados como 2++.

D Niveles de evidencia 3 o 4, o evidencia extrapolada desde estudios clasifica-dos como 2+

NICE: Guideline Development Methods

Tabla 1. Niveles de evidencia

1++ Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos alea-torizados o ensayos clínicos aleatorizados con muy bajo riesgo de sesgos.

1+ Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleatorizados o ensayos clínicos aleatorizados con bajo riesgo de sesgos.

1- Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleatorizados o ensayos clínicos aleatorizados con alto riesgo de sesgos*.

2++

Revisiones sistemáticas de alta calidad de estudios de cohortes o de casos-controles, o estudios de cohortes o de casos-controles de alta calidad, con muy bajo riesgo de confusión, sesgos o azar y una alta probabilidad de que la relación sea causal.

2+Estudios de cohortes o de casos-controles bien realizados, con bajo riesgo de confusión, sesgos o azar y una moderada probabilidad de que la relación sea causal.

2- Estudios de cohortes o de casos y controles con alto riesgo de sesgo*.

3 Estudios no analíticos, como informe de casos y series de casos.

4 Opinión de expertos.

* Los estudios con un nivel de evidencia ‘–‘ no deberían utilizarse como base para elaborar una recomendación.

Adaptado de Scottish Intercollegiate Guidelines Network.

Page 17: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

89Guías de Práctica Clínica

Tabla 2. Grados de Recomendación

A

- Al menos un meta-análisis, o un ensayo clínico aleatorio categorizados como 1++, que sea directamente aplicable a la población diana, o

- Una revisión sistemática o un ensayo clínico aleatorio o un volumen de evi-dencia con estudios categorizados como 1+, que sea directamente aplicable a la población diana y demuestre consistencia de los resultados.

- Evidencia a partir de la apreciación de NICE.

B

- Un volumen de evidencia que incluya estudios calificados de 2++, que sean directamente aplicables a la población objeto y que demuestren globalmente consistencia de los resultados, o

- Extrapolación de estudios calificados como 1++ o 1+.

C

- Un volumen de evidencia que incluya estudios calificados de 2+, que sean directamente aplicables a la población objeto y que demuestren globalmente consistencia de los resultados, o

- Extrapolación de estudios calificados como 2++.

D- Evidencia nivel 3 o 4, o- Extrapolación de estudios calificados como 2+ o- Consenso formal

D (BPP)

Un buen punto de práctica (BPP) es una recomendación para la mejor práctica basado en la experiencia del grupo que elabora la guía.

IP Recomendación a partir del manual para procedimientos de intervención de NICE.

Tabla 3. Niveles de evidencia para estudios de diagnóstico.

Ia Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleatori-zados o ensayos clínicos aleatorizados con muy bajo riesgo de sesgos.

Ib Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleato-rizados o ensayos clínicos aleatorizados con bajo riesgo de sesgos.

II Metaanálisis de gran calidad, revisiones sistemáticas de ensayos clínicos aleato-rizados o ensayos clínicos aleatorizados con alto riesgo de sesgos*.

IIIRevisiones sistemáticas de alta calidad de estudios de cohortes o de casos-contro-les, o estudios de cohortes o de casos-controles de alta calidad, con muy bajo ries-go de confusión, sesgos o azar y una alta probabilidad de que la relación sea causal.

IV Estudios de cohortes o de casos-controles bien realizados, con bajo riesgo de con-fusión, sesgos o azar y una moderada probabilidad de que la relación sea causal.

* Homogeneidad significa que no hay variaciones o estas son pequeñas en la dirección y grado de los resultados entre los estudios individuales que incluye la revisión sistemática.† Estudios de nivel 1:

- aquellos que utilizan una comparación ciega de la prueba con un estándar de referenciavalidado (gold standard)- en una muestra de pacientes que refleja a la población a quien se aplicaría la prueba.

‡ Estudios nivel 2 son aquellos que presentan una sola de esta características:- población reducida (la muestra no refleja las características de la población a la que se le va a aplicar la prueba).- utilizan un estándar de referencia pobre (definido como aquel donde la ‘prueba’ es incluida en la ‘referencia’, o aquel en que las ‘pruebas’ afectan a la ‘referencia’).- la comparación entre la prueba y la referencia no está cegada.- Estudios de casos y controles.

§ Estudios de nivel 3 son aquellos que presentan al menos dos o tres de las características señaladas anteriormente.Adaptado de The Oxford Centre for Evidence-based Medicine Levels of Evidence (2001) and the Centre for Reviews and Dissemination Report Number 4 (2001).

Page 18: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

90 Guías de Práctica Clínica

Tabla 4. Clasificación de las recomendaciones para los estudios diagnóstico

A (ED) Estudios con un nivel de evidencia Ia o Ib.

B (ED) Estudios con un nivel de evidencia II.

C (ED) Estudios con un nivel de evidencia III.

D (ED) Estudios con un nivel de evidencia IV.

ED = Estudios diagnósticos

Bibliografía

Agency for Healthcare Research and Quality (AHRQ). EPC Evidence Reports [Internet]. Rockville: AHRQ. [acceso 12/2/2009]. Disponible en: http://www.ahrq.gov/clinic/epcindex.htm#methodology

Alonso Ortiz del Río C, Medrano Ortega FJ, Romero Alonso A, Villar Conde E, Calderón Sandubete E, Marín León I et al. Guía PRETEMED 2003. Guía de profilaxis de enfermedad tromboembólica en patología médica [Internet]. Córdoba: SADEMI; 2003 [acceso 12/2/2009]. Disponible en: http://ics.aragon.es/awgc/contenido.detalle.do?idContenido=231&vienede=busqueda33

Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al; GRADE Working Group. Grading qua lity of evidence and strength of recommendations. BMJ 2004 ;328:1490. [PubMed] [Texto completo]

Briones Pérez de la Blanca E , Marín León I, Alvarez Gil R, Reyes Domínguez A. Fundamentos de consenso en el ámbito de las ciencias de la salud. En : Metodología de expertos. Consenso en Medicina. Berra de Unamuno A, Marín León I, Alvarez Gil R. (Eds). Granada: Escuela Andaluza de Salud Pública; 1996.p. 13.

Canadian Task Force on Preventive Health Care. History and methods. [Internet]. 2005 [acceso 12/2/2009]. Disponible en: http://www.ctfphc.org

Canadian Task Force on Preventive Health Care. New grades for recommendations from the Canadian Task Force on Preventive Health Care. CMAJ 2003;169:207-8 [PubMed] [Texto completo]

Centre for Evidence-Based Medicine de Oxford . Levels of Evidence and Grades of Recommendation [Internet]. Oxford : Centre for Evidence-Based Medicine de Oxford [acceso 12/2/2009]. Dis ponible en http://www.cebm.net/levels_of_evidence.asp

Fitch K, Bernstein SJ, Aguilar MS, Burnand B, La Calle JR , Lázaro P, van het Loo M, McDonnell J, Vader JP, Kahan JP. The RAND/UCLA appropriateness method user s ma-nual [Internet]. RAND Health Santa Mónica; 2001 [acceso 12/2/2009]. Disponible en: http://www.rand.org/pubs/monograph_reports/MR1269/

Grading of Recommendations of Assessment Development and Evaluations. GRADE working group. [Internet]. GRADE [acceso 12/2/2009]. Disponible en: http://www.gradeworkinggroup.org/

Guia Salud. Catálogo de Guías de Práctica Clínica en el Sistema Nacional de Salud. [Internet]. Ministerio de Sanidad y Consumo, Gobierno de Aragón [acceso 12/2/2009]. Disponible en: http://www.guiasalud.es/

Gómez E, De Villar de E, Lacalle JR, Briones E, Reyes A, Alvarez R et al. Estudio de la reproductibilidad y validez de una revisión sistemática de la bibliografía médica. Med. Clin. (Barc) 1999; 112 (Supl 1): 74-78.

Harris RP, Helfand M, Woolf SH, Lohr KN, Mulrow CD, Teutsch SM for the Methods Word Group, third U.S. et al. Preventive Services Task Force. Current methods of the U.S. Preventive Services Task Force: a review of the process. Am J Prev Med 2001;20(3S):21-35 [PubMed]

Información farmacoterapéutica de la comarca (INFAC). Metodología de la elaboración de una recomen dación en la guía de práctica clínica de la hipertensión arterial (HTA):

Page 19: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

91Guías de Práctica Clínica

Eficacia de la dieta hiposódica [Internet]. INFAC; mayo 2002; Volumen 10- nº5. [acceso 12/2/2009]. Disponible en: http://www.euskadi.net/sanidad

Marzo M, Alonso Coello P, Bonfill X. Las guías de práctica clínica en España. Med Clin (Barc) 2002; 118 (Supl 3):30-5

National Institute for Clinical Excelence (NICE): Guideline Development Methods. Chapter 6: Identifying the evidence. Information for National Collaborating Centers and Guideline Developers [Internet]. London: NICE; 2008 [acceso 12/2/2009] Disponible en: http://www.nice.org.uk/guidelinesmanual

National Institute for Clinical Excelence (NICE): Guideline Development Methods. Chapter 9: Making group decisions and reaching consensus. Information for National Collaborating Centers and Guideline Developers. [Internet]. London: NICE; 2008 [acceso 12/2/2009] Disponible en: http://www.nice.org.uk/guidelinesmanual

National Institute for Clinical Excelence. The guidelines manual 2007 [Internet]. London: NICE; 2009.[ acceso 12/2/2009]. Disponible en: [Entrar]

National Institute for Clinical Excellence (NICE). Guidelines Development methods. Guideline Development Methods- Chapter 7: Reviewing and grading the evidence [Internet]. London: NICE; 2008 [acceso 12/2/2009] Disponible en: http://www.nice.org.uk/guidelinesmanual

National Institute for Clinical Excellence (NICE). Guidelines Development methods. Guideline Development Methods - Chapter 11 Creating guideline recommendations [Internet]. London: NICE; 2008 [acceso 12/2/2009] Disponible en: http://www.nice.org.uk/guidelinesmanual

Programa en habilidades de lectura crítica. España [Internet]. CASPE [acceso 12/2/2009]. Diponible en http://www.redcaspe.org/homecasp.asp

Scotish Intercollegiate Guidelines Network. A guideline developer s handbook [monografía en Internet]. Edinburgh : Scottish Intercollegiate Guidelines NetworK; 2008 [acceso 12/2/2009] Disponible en: http://www.sign.ac.uk/guidelines/fulltext/50/index.html

Shekelle PG, Woolf SH, Eccles M, Grimsahw J. Developing guidelines. BMJ 1999; 318:593-596 [PubMed] [Texto completo]

The GRADE Working Group. Systems for grading the quality of evidence and the strength of recommendations I: Critical appraisal of existing approaches. BMC Health Serv Res 2004;4:38. [Texto completo]

U.S. Preventive Services Task Force Ratings: Strength of Recommendations and Quality of Evidence. Guide to Clinical Preventive Services. [Internet] Third Edition: Periodic Updates, 2000-2003. Rockville : Agency for Healthcare Research and Quality. [acceso 24 de marzo de 2005]. Disponible en: http://www.ahrq.gov/clinic/3rduspstf/ratings.htm

Upshur RE. Are all evidence-based practices alike? Problems in the ranking of evidence. CMAJ 2003;169:672-3. [PubMed] [Texto completo]

West S, King V, Carey TS, et al. Systems to Rate the Strength of Scientific Evidence. Evidence Report/Te chnology Assessment No. 47 (Prepared by the Research Triangle Institute-University of North Carolina Evidence-based Practice Center under Contract No. 290-97-0011). AHRQ Publication No. 02-E016. Roc kville , MD : Agency for Healthcare Research and Quality. April 2002. [acceso 12/2/2009]. Disponible en: http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=hstat1.chapter.70996

Bibliografía comentada 1. National Institute for Clinical Excellence (Update 2008) Guideline Development

Methods: Information for National Collaborating Centres and Guideline Developers. London: National Institute for Clinical Excellence. Disponible en: http://www.nice.org.uk/guidelinesmanualDocumento elaborado por el Instituto Nacional de Excelencia Clínica (NICE) británico, integrado en el NHS, con el objetivo de proporcionar apoyo a las personas y a las organizaciones que trabajan en la producción de guías del propio Instituto.

Page 20: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

Elaboración y diseño de una GPC. Síntesis de la evidencia

92 Guías de Práctica Clínica

El documento recoge de manera sistematizada la experiencia de personas que han participado en el desarrollo de guías. Se complementa con otro documento más general, destinado a servir de ayuda a los revisores externos.

Está integrado por 15 capítulos que abordan todos los aspectos a tener en cuenta cuando se decide elaborar una GPC. Como son: definición del alcance de la guía, elaboración del plan de trabajo, constitución del grupo elaborador, desarrollo de preguntas clínicas, identificación de la evidencia, revisión y gradación de la evidencia, incorporación de criterios económicos y de impacto en los recursos, toma de decisiones, elaboración de recomendaciones, desarrollo de criterios de evaluación, redacción, método de consulta con evaluadores externos y actualización y corrección de errores.

A lo largo de los capítulos se describe de manera muy clara lo que hay que hacer en cada una de las etapas de producción de una guía y para ello se acompaña de la utilización de ejemplos y de un apéndice en el que se incluyen, entre otras cosas, modelos de planillas de evaluación crítica y tablas de evidencia. Su presentación sigue el esquema de las GPC en su estructura, en la transparencia de su desarrollo y en su vocación de ser útil. Constituye una referencia obligada en temas de metodología de elaboración de guías, respondiendo de manera muy adecuada a la denominación: Guía de Guías.

2. Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al; GRADE Working Group. Grading quality of evidence and strength of recommendations. BMJ 2004 ;328:1490. [Medline] En este artículo se presenta un resumen del sistema de clasificación de los niveles de evidencia y fuerza de las recomendaciones GRADE (http://www.gradeworkinggroup.org/_ES/index.htm) ed. español. El grupo GRADE Working Group comenzó en el año 2000 como una colaboración informal de profesionales interesados en abordar las deficiencias de los actuales sistemas de clasificación de las recomendaciones. El objetivo de GRADE es desarrollar un enfoque sistemático y explícito para hacer juicios sobre la calidad de la evidencia y la fuerza de las recomendaciones que ayude a prevenir errores, facilite la valoración crítica de estos juicios y su comunicación. Los juicios sobre la fuerza de una recomendación deben tener en cuenta el balance entre beneficios y riesgos, la calidad de la evidencia, la aplicación de esta evidencia en circunstancias específicas y la situación de riesgo basal. Antes de elaborar una recomendación también es importante considerar los costes. El sistema GRADE persigue equilibrar la sencillez con la valoración global y transparente de todos los aspectos importantes que se han de tener en cuenta a la hora de llevar a cabo los juicios. Esta clasificación se ha desarrollado para que pueda aplicarse a una amplia gama de intervenciones y contextos. El artículo original se ha traducido con autorización del grupo editor del BMJ y fue publicado en: Traducción GRADE-BMJ http://www.gradeworkinggroup.org/_ES/publications/Traduccion_GRADE-BMJ-Atencion_Primaria.pdf Marzo Castillejo M, Montaño Barrientos A. El sistema GRADE para la toma de decisiones clínicas y la elaboración de recomendaciones y guías de practica clínica. Aten Primaria. 2007 Sep;39(9):457-60. http://www.doyma.es/cgi-bin/wdbcgi.exe/doyma/mrevista.fulltext?pident=13109491

Page 21: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

93Guías de Práctica Clínica

El sistema GRADE para la evaluación de la calidad de la evidencia y la graduación de

la fuerza de las recomendaciones

Pablo Alonso Coello Rafael Rotaeche del Campo

Arritxu Etxeberria Agirre

La necesidad de graduar las recomendaciones en las guías de práctica clínica (GPC)

Las guías de práctica clínica han experimentado una enorme transformación du-rante la última década. Los dos aspectos en los que se han sentido de manera

más importante estos cambios han sido la búsqueda exhaustiva de la literatura y la evaluación de la calidad de la evidencia y la graduación de la fuerza de las recomen-daciones. En concreto, cuando se formulan recomendaciones el grupo elaborador de una guía (GEG) se debe plantear hasta qué punto puede afirmarse que el adherirse a una recomendación conllevará más beneficios que daños. Esta decisión no es sencilla y está influida por múltiples factores que convierten a esta etapa en una de las más complejas dentro del proceso de elaboración de una guía.

De acuerdo al instrumento AGREE (Appraisal of Guidelines Research and Eva-luation), la etapa de formulación de recomendaciones, se incluye dentro del área denominada “Rigor en la elaboración”. En este área deben contemplarse los siguien-tes aspectos (AGREE, 2001): la metodología explícita, la relación entre beneficios y riesgos y la relación entre las recomendaciones y la evidencia científica. Las pre-guntas a responder son:n¿Los métodos para formular las recomendaciones están claramente descritos? n¿Al formular las recomendaciones, los beneficios de salud, efectos secunda-

rios y los riesgos, han sido considerados? n¿Hay una relación clara entre cada una de las recomendaciones y las eviden-

cias en las que se basan? Se han utilizado múltiples sistemas para la evaluación de la calidad de la eviden-

cia y graduación de la fuerza de las recomendaciones. Hace algo más de dos déca-das los sistemas diferenciaban ya el nivel o la calidad de la evidencia de la fuerza de la recomendación (CTFPHC, 2003). La calidad se equiparaba, por lo general, a la adecuación de los diseños de los estudios para contestar a los diferentes tipos de preguntas. Progresivamente las diferentes propuestas han ido evolucionando e incorporando otros aspectos más allá del diseño de los estudios.

Al ser las GPC una herramienta en constante evolución (Campbell F, 2006) es comprensible que existan múltiples sistemas que utilizan diferentes propuestas, muchos de ellos con limitaciones importantes AHRQ, 2002). Generalmente las pro-puestas sitúan a las revisiones sistemáticas de ensayos clínicos aleatorizados (ECA) en el nivel más alto de evidencia, seguidas, en orden descendente, por los ECA individuales, estudios de cohortes, estudios de casos y controles y series de casos.

A

Page 22: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

94 Guías de Práctica Clínica

La opinión de los expertos es considerada en algunos sistemas como la categoría más baja de evidencia.

Entre las limitaciones presentes en los sistemas actuales se encuentran la falta de transparencia en el paso de la evidencia a la recomendación y en la valoración del balance entre beneficios y riesgos, así como la indefinición en los criterios para evaluar la calidad de la evidencia y graduar la fuerza de las recomendaciones. Todo ello puede contribuir al desconcierto de los usuarios finales de las GPC y a generar desconfianza en su aplicación.

Un sistema para clasificar la calidad de la evidencia y graduar la fuerza de las recomendaciones debe combinar la sencillez con la explicitud. Recientemente un grupo internacional de elaboradores de GPC, epidemiólogos y clínicos pertenecien-tes a las principales instituciones que desarrollan GPC, ha elaborado una nueva propuesta que tiene como objetivo consensuar un sistema común que supere las limitaciones detectadas hasta el momento en los sistemas previos. Este grupo de profesionales constituye el grupo de trabajo GRADE (Grading of Recommendations Assessment, Development and Evaluation). Este sistema, denominado GRADE como el propio grupo de trabajo, está comenzando a ser utilizado por diferentes institucio-nes elaboradoras de guías o que formulan recomendaciones en salud (WHO, 2007). Así mismo su enfoque también se está utilizando en la evaluación de la calidad en las revisiones sistemáticas de la Colaboración Cochrane. En nuestro entorno la propuesta GRADE está siendo pilotada y utilizada en varias guías de práctica clínica, pero todavía no ha sido publicada ninguna con este sistema.

El grupo dispone de una web propia (http://www.gradeworkinggroup.org/) en la cual se proporciona la traducción en castellano de algunos artículos y materiales (Marzo M, 2007).

Introducción al sistema GRADE de graduación de recomendaciones

El sistema GRADE tiene algunos aspectos diferenciales que se pueden resumir en tres. Inicialmente categoriza las variables de resultado y su importancia relativa.

Posteriormente evalúa la calidad de la evidencia en cuatro categorías para cada una de las variables de resultado y después la calidad global de la evidencia. Finalmente gradúa la fuerza de las recomendaciones en dos únicas categorías (recomendacio-nes fuertes o débiles).

Inicialmente, es importante partir de una definición común de los dos conceptos clave en la formulación de las recomendaciones: la calidad de la evidencia (conocida también como nivel de evidencia) y la fuerza de la recomendación. El sistema GRA-DE propone las siguientes definiciones (Atkins D, 2004):nCalidad de la evidencia: indica hasta qué punto nuestra confianza en la

estimación de un efecto es adecuada para apoyar una recomendación. nFuerza de la recomendación: indica hasta qué punto podemos confiar si

poner en práctica la recomendación conllevará más beneficios que riesgos.

Clasificación de la importancia relativa de las variables

En esta etapa inicial es necesario que el grupo elaborador defina las variables de resultado de interés para las preguntas que abordará su guía y califique la

Page 23: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

95Guías de Práctica Clínica

importancia relativa de las mismas. Estas variables pueden tener una importancia muy diferente a la hora de tomar decisiones (Montori VM, 2007) y, por otra parte, a menudo los pacientes y cuidadores pueden valorar su importancia de manera diferente a los clínicos (Guyatt G, 2004; Devereaux PJ, 2001).

Se sugiere clasificar su importancia mediante la siguiente escala de nueve puntos (Guyatt G): n1-3: variable de resultado no importante. Estas variables no juegan un papel

importante en la formulación de las recomendaciones y no se incluyen en la tabla de evaluación de la calidad o de los resultados.

n4-6: variable de resultado importante pero no clave para la toma de decisiones. n7-9: variable de resultado clave para la toma de decisiones.

Por ejemplo, en una GPC sobre enfermedad pulmonar obstructiva crónica (EPOC), un grupo elaborador puede seleccionar las siguientes variables de resultado a tener en cuenta en la evaluación del efecto del tratamiento con corticoides sistémicos en las reagudizaciones: mortalidad, fracaso del tratamiento (ingresos hospitalarios o visitas a urgencias), duración de la estancia hospitalaria, calidad de vida, volumen espiratorio forzado en el primer segundo (FEV1), gasometría y efectos adversos (Fi-gura 1). Probablemente el grupo valorará las variables de mortalidad, el fracaso de tratamiento y los efectos adversos como variables claves para la toma de decisiones (Marzo M, 2007; Atkins D, 2004; Montori VM, 2007), mientras que considerará im-portantes pero no claves la duración de la estancia hospitalaria y la calidad de vida (Campbell F, 2006; AHRQ, 2002; WHO, 2007). Finalmente puede considerar como no importantes el FEV1 y los resultados de la gasometría arterial (Grupo de trabajo sobre GPC, 2007; AGREE, 2001; CTFPHC, 2003).

Figura 1. Jerarquía de la variables de resultado de acuerdo a la importancia para los pacientes en la evaluación de los corticoides orales para el tratamiento de las exacerbaciones agudas en el paciente con EPOC.

Page 24: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

96 Guías de Práctica Clínica

Evaluación de la calidad de la evidencia

El sistema GRADE define la calidad de la evidencia como el grado de confianza que tenemos en que la estimación de un efecto es adecuada para apoyar una

recomendación. Esta definición implica que diferentes grupos en distintos contextos pueden diferir en la clasificación de la calidad de la evidencia si, por ejemplo, la aplicabilidad es incierta (Guyatt G). La etapa de la evaluación de la calidad en este sistema se realiza para cada una de las variables de resultado para la toma de de-cisiones, de forma que cada variable puede presentar distinta calidad dependiendo del número de estudios y de sus características.

Inicialmente la evaluación de la evidencia comienza por considerar el diseño de los estudios y su adecuación para responder a cada tipo de pregunta. En este caso los ECAs corresponden de entrada a “calidad alta” y los observacionales como “calidad baja”. En los ECAs se deben valorar cinco aspectos que pueden disminuir la calidad, mientras que en los estudios observacionales son tres las circunstancias que pueden aumentarla (Tabla 1). Finalmente la calidad de la evidencia será valorada como alta, moderada, baja y muy baja, categorías que representan el gradiente de confianza que tenemos en que la estimación del efecto observado es cierta.

Aspectos que pueden disminuir la calidad:nLimitaciones en el diseño o la ejecución: ausencia de ocultamiento de la se-

cuencia de aleatorización, enmascaramiento inadecuado, pérdidas de segui-miento importantes, ausencia de análisis por intención de tratar, finalización prematura del estudio por razones de beneficio.

nResultados inconsistentes: las estimaciones muy diferentes del efecto del tra-tamiento (heterogeneidad o variabilidad en los resultados) entre los estudios disponibles sugieren diferencias reales en dichas estimaciones. Estas pueden deberse a diferencias en la población, la intervención, las variables de resultado o a la calidad de los estudios. Cuando exista heterogeneidad y no se identifique una potencial explicación, la calidad disminuye.

nAusencia de evidencia directa: puede presentarse en varias circunstancias. Por ejemplo, por ausencia de comparaciones directas entre dos tratamientos la evidencia disponible puede provenir de una comparación indirecta de cada uno de ellos frente a placebo. La extrapolación de los resultados de un estudio con un determinado fármaco al resto de fármacos de su misma familia en ausencia de un efecto de clase demostrado también se considera evidencia indirecta. Por último la forma más clásica de evidencia indirecta se da cuando existen grandes diferencias entre la población donde se aplicará la GPC y la incluida en los estudios evaluados.

nImprecisión: cuando los estudios disponibles incluyen relativamente pocos eventos o pocos pacientes y, por tanto, presenta intervalos de confianza am-plios, la evidencia puede considerarse como de menor calidad.

nSesgo de notificación: la calidad, y por tanto nuestra confianza, puede disminuir si se tiene la duda razonable que los autores no han incluido todos los estudios (por ejemplo en el contexto de una revisión sistemática) o todas las variables de resultado relevantes. Por ejemplo esto puede ocurrir en el caso de disponer de unos pocos ensayos de pequeño tamaño y financiados por la industria.

Page 25: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

97Guías de Práctica Clínica

Aspectos que pueden aumentar la calidad:nEfecto importante: cuando el efecto observado muestra una asociación fuerte

(riesgo relativo, RR > 2 ó < 0,5) o muy fuerte (RR > 5 ó < 0,2) y consistente, basada en estudios sin factores de confusión, es improbable que éste sea de-bido únicamente al diseño más débil del estudio. En estas ocasiones podemos considerar la calidad como moderada o incluso alta.

nLa presencia de un gradiente dosis respuesta. nSituaciones en las cuales todos los posibles factores confusores podrían haber

reducido el efecto observado. Por ejemplo si los pacientes que reciben la inter-vención de interés presentan un peor pronóstico y, aún así, presentan mejores resultados que el grupo control, es probable que el efecto real sea mayor.

Tabla 1. Evaluación de la calidad de la evidencia según el tipo de diseño de los estudios.

Calidad de la evidencia

Diseño de estudio Disminuir si* Aumentar si*

Alta ECA Importante (-1) o muy im-portante (-2) limitación de la calidad del estudio.

Inconsistencia importan-te (-1).

Alguna (-1) o gran (-2) incertidumbre acerca de la que evidencia sea direc-ta.

Datos escasos o imprecisos (-1).

Alta probabilidad de sesgo de notificación (-1).

Asociación: evidencia de una fuerte asociación: RR > 2 ó < 0,5 basado en estudios observacionales sin factores de confusión (+1). Evidencia de una muy fuerte asociación RR > 5 ó < 0,2 basada en evidencia sin posibilidad de sesgos (+2).

Gradiente dosis respuesta (+1).

Todos los posibles facto-res confusores podrían haber reducido el efecto observado (+1).

Moderada

Baja Estudio observacional

Muy bajaCualquier otra evidencia

* En el caso de los ensayos clínicos aleatorizados (ECA) se puede disminuir la califi-cación de la calidad de la evidencia y en el caso de los observacionales se puede aumentar. (-1) (-2) (+1) (+ 2): representan que se puede disminuir (-) o aumentar (+) 1 ó 2 categorías en la calidad de la evidencia.

Las variables claves tienen un mayor peso a la hora de evaluar la calidad de for-ma global y serán, por tanto, las que determinen las recomendaciones. Por ejemplo, en el caso del tratamiento con corticoides sistémicos en las reagudizaciones agudas del paciente EPOC ,a la hora de evaluar la calidad global se tendrá en cuenta la calidad de las variables claves, y se elegirá la calidad más baja de todas las variables claves , en el caso de que la calidad sea diferente en alguna de ellas. Esta etapa de evaluación de la calidad de la evidencia, junto con la síntesis de los resultados para las diferentes variables de resultado, puede presentarse en forma de tabla (Wood-Baker RR, 2004) (Ver Tabla 3).

Graduación de la fuerza de las recomendacionesLa fuerza de una recomendación refleja hasta qué punto podemos confiar, para la po-blación diana de una guía, en que la puesta en práctica de la recomendación conllevará

Page 26: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

98 Guías de Práctica Clínica

más beneficios que riesgos. En relación a dos estrategias terapéuticas refleja hasta qué punto podemos confiar en que existe un beneficio neto a favor de una de ellas (Guyatt G). La graduación de la fuerza de las recomendaciones en este sistema es más simple que en otros sistemas, ya que sólo considera dos categorías: recomendaciones fuertes y débil (ambas pueden ser a favor o en contra de una determinada intervención). En el caso de una recomendación fuerte el grupo elaborador confía en que los efectos be-neficiosos superan a los perjudiciales. En el caso de una recomendación débil concluye que los efectos beneficiosos de llevar a cabo la recomendación probablemente superan a los perjudiciales, aunque no está completamente seguro.

Factores a tener en cuenta en la graduación de las recomendaciones nBalance entre beneficios y riesgos: por ejemplo, los corticoides inhalados en

el asma moderado a grave presentan importantes beneficios en términos de una reducción del número y gravedad de las exacerbaciones junto con bajo riesgo de efectos secundarios sistémicos. Sin embargo, en niños pequeños con sibilancias recurrentes el balance es más incierto y su uso debería sope-sarse individualmente. Por tanto en el primer ejemplo sería más adecuada una recomendación fuerte (a favor) y en el segundo una débil (a favor o en contra, en función de una valoración individualizada del balance riesgo beneficio).

nCalidad de la evidencia: antes de formular una recomendación es necesario conocer nuestra certeza sobre la estimación del efecto observado. Si la cali-dad de la evidencia no es buena, a pesar de que la magnitud sea importante, disminuirá nuestra confianza y por tanto la fuerza con la que llevamos reali-zamos una recomendación.

Recomendaciones fuertes con estudios observacionales

La evidencia sobre la eficacia de la adrenalina para el tratamiento de la anafilaxia es de tipo observacional. Este tipo de diseño de estudios es en principio considera-do de calidad baja. No obstante el efecto de su administración es tan importante e inmediato que aumenta de manera muy importante nuestra confianza en su efec-to beneficioso. El balance riesgo-beneficio es muy favorable (la mayoría mueren si no se les administra el tratamiento) haciendo que resulte imperativo tratar. La recomendación en este caso es claramente es fuerte a favor.

Recomendaciones débiles con evidencia de calidad alta

En el tratamiento a corto plazo de los síntomas vasomotores asociados a la meno-pausia, existe evidencia de alta calidad acerca de la eficacia de la terapia hormonal (TH). Por otro lado, los potenciales efectos adversos poco frecuentes pero graves (como el cáncer de mama o los eventos cardiovasculares) conllevan un balan-ce riesgo-beneficio equilibrado o incluso incierto. Las mujeres con síntomas más intensos serán más propensas a decidirse a tomar el tratamiento. No obstante, independientemente de los síntomas, un número substancial de mujeres pueden, una vez informadas sobre los riesgos y beneficios, decidir tomar durante un tiem-po el tratamiento. Por otro lado, un numero también substancial puede decicir no hacerlo. En este contexto el grupo elaborador se inclinará más probablemente por una recomendación débil a favor.

Page 27: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

99Guías de Práctica Clínica

nValores y preferencias: Los valores y preferencias de la población diana a la cual va dirigida la guía es otro de los factores a tener en cuenta. Dado que siempre habrá beneficios y riesgos que sopesar es importante si se han tenido en cuenta a la hora valorarlos y de formular las recomendaciones. Más aún, si estos valores reflejan los de los médicos o los de los individuos o la sociedad en general. A pesar de que existe poca información acerca de los valores y preferencias de los pacientes, es importante tener en cuenta la que está disponible y al menos valorar y hacer explícito este factor en el proceso de formulación y graduación de las recomendaciones.

nCostes: los costes, a diferencia de otras variables de resultado, son mucho más variables en el tiempo, según el área geográfica, así como sus implicacio-nes. Así, aunque un coste elevado disminuye la probabilidad de graduar una recomendación como fuerte el contexto será crítico para decidir. Los grupos elaboradores a la hora de considerar la asignación de recursos deben ser muy específicos respecto al entorno al que es aplicable la recomendación y a la perspectiva que se utiliza. Así mismo las recomendaciones altamente influen-ciadas por aspectos de costes pueden cambiar en el tiempo en la medida en que las implicaciones de los recursos varíen.

Tabla 2. Implicaciones de las recomendaciones.

Pacientes/cuidadores Clínicos Gestores/

planificadores

Fuerte La inmensa mayoría de las personas esta-rían de acuerdo con la acción recomenda-da y únicamente una pequeña parte no lo estarían.

La mayoría de los pacientes deberían recibir la intervención recomendada.

La recomendación puede ser adoptada como política sanitaria en la mayoría de las situaciones.

Débil La mayoría de las personas estarían de acuerdo con la acción recomendada pero un número importante de ellas no.

Reconoce que dife-rentes opciones serán apropiadas para dife-rentes pacientes y que el profesional sanitario tiene que ayudar a cada paciente a adop-tar la decisión más consistente con sus valores y preferencias.

Existe necesidad de un debate importante y la participación de los grupos de interés.

En el caso representado en la Tabla 3 el tratamiento con corticoides presenta un balance riesgo beneficio favorable (reduce el riesgo de fracaso terapéutico, la necesidad de tratamiento adicional, la estancia hospitalaria, aumentando la capa-cidad funcional aunque con más efectos adversos leves). El coste de los corticoides es muy bajo y no hay razones para pensar que la mayoría de los pacientes, una vez informados, no aceptarían el tratamiento en estas circunstancias. Por otro lado la calidad global es moderada. En conjunto, por tanto, tenemos evidencia de calidad moderada (disminuye algo nuestra confianza en la estimación del efecto) y no hay

Page 28: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

100 Guías de Práctica Clínica

otros factores adicionales que nos hagan disminuir nuestra confianza en que el lle-var a cabo esta recomendación conllevaría más beneficios que daños. Por tanto, un grupo elaborador de una guía podría probablemente llevar a cabo una recomenda-ción fuerte el empleo de corticoides en las exacerbaciones de la EPOC (NGC, 2004).

Recomendación fuerte

La aspirina reduce el riesgo de muerte tras un infarto agudo de miocardio en un 25%. Los efectos adversos de la aspirina son escasos y el coste muy bajo. La inmensa mayoría de las personas, una vez enfrentados a decidir si tomarla o no, optarían por aceptar un tratamiento con estas características. Esto es, los valores y preferencias de la mayoría de las personas son probablemente muy similares si se les confronta una situación con este balance riesgo beneficio. El grupo elaborador de una guía puede, en estas circunstancias, llevar a cabo una recomendación fuerte a favor.

Recomendación débil

El tratamiento con flavonoides reduce de manera significativa los síntomas he-morroidales como el dolor, el sangrado o el prurito. No obstante los ensayos disponibles tienen limitaciones metodológicas, presentan resultados impreci-sos (escaso número de eventos) y muy variables (heterogeneidad importante). Por otro lado el riesgo de sesgo de publicación está presente, con estudios pequeños y financiados por la industria. En este contexto la calidad puede con-siderarse como moderada o incluso baja (nuestra confianza en los resultados disminuye de la a priori alta correspondiente a los ensayos clínicos). En este contexto, a pesar de que los flavonoides son relativamente baratos y que pre-sentan un balance riesgo-beneficio probablemente favorable la recomendación más razonable es una débil.

Representación de la calidad de la evidencia y la fuerza de las recomendacionesExiste escasa evidencia sobre cuál es la forma más efectiva de transmitir la gradua-ción de las recomendaciones a los usuarios de las guías (Schünemann HJ, 2003). El sistema GRADE no excluye que para graduar la fuerza de las recomendaciones el grupo pueda utilizar otros términos alternativos a fuerte o débil, o algún símbolo o letra que represente la calidad de la evidencia y la fuerza de las recomendaciones. Por ejemplo, en la calidad se pueden utilizar, junto con los términos propuestos, símbolos como en la tabla adjunta, y en el caso de las recomendaciones pueden ser letras o números (recomendación fuerte 1 y débil 2) (Figura 2).

Figura 2. Representación de la calidad de la evidencia y la fuerza de las recomendaciones.

Calidad de la evidencia

Alta ++++ AModerada +++ BBaja ++ CMuy Baja + D

Continúa

Page 29: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

101Guías de Práctica Clínica

Figura 2. Representación de la calidad de la evidencia y la fuerza de las recomendacio-nes. (Cont.)

Fuerza de la recomendación

Recomendación fuerte a favor de utilizar una intervención. 1

Recomendación débil a favor de utilizar una intervención. ? 2

Recomendación débil en contra de utilizar una intervención. ? 2

Recomendación fuerte en contra de utilizar una intervención. 1

Implicaciones para el futuroEl sistema GRADE es un sistema novedoso muy exhaustivo, transparente y explícito para la formulación de recomendaciones. Estas características conllevan, a pesar de su atractivo enfoque, que se requiera una formación específica para poder aplicarlo correctamente (Calderón C, 2006). Por otro lado, actualmente está todavía en fase de perfeccionamiento, principalmente para aspectos como son las recomendaciones sobre el diagnóstico o la evaluación de temas económicos (Marzo M, 2006). No obstante, ya está siendo adoptado y/o pilotada por numerosas instituciones tan im-portantes como la OMS, la Colaboración Cochrane, el Instituto NICE o publicaciones como Clinical Evidence o Uptodate, entre otras. Actualmente el uso incompleto o de forma parcial del sistema GRADE por algunas iniciativas (Chou R, 2007) puede llevar a confusión por parte de los usuarios de guías o incluso de los elaboradores. Por tanto, es importante conocer el sistema con cierta profundidad tanto para aplicarlo como para reconocer su correcta aplicación.

Durante el periodo 2008-2009 se publicarán dos series de artículos que profun-dizan en la comprensión y utilización del sistema GRADE (Guyatt G): una serie de cinco artículos para usuarios de guías en la revista British Medical Journal, y una serie más detallada y amplia para elaboradores de guías o personas que llevan a cabo recomendaciones en salud en el Journal of Clinical Epidemiology. Así mismo se está elaborando un manual sobre el sistema que será publicado durante el 2008.

El programa nacional de elaboración de guías de práctica clínica ha incluido al sistema GRADE dentro de su manual metodológico (Grupo de trabajo sobre GPC, 2007). El programa se ha iniciado recientemente y publicará varias guías en el primer semestre del 2008 con el sistema SIGN (Scottish Intercollegiate Guidelines Network) sobre graduación de recomendaciones (SIGN, 2001) pero está actualmen-te considerando el sistema GRADE y existen planes de ir pilotándolo e incorporarlo en próximas GPC.

Page 30: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

102 Guías de Práctica Clínica

Tab

la 3

. Eva

luac

ión

de la

cal

idad

y s

ínte

sis

de lo

s re

sultad

os, po

r va

riab

le d

e re

sultad

o, d

el s

iste

ma

de c

lasi

ficac

ión

GR

AD

E.

Eval

uac

ión

de

la c

alid

adR

esu

men

de

hal

lazg

osIm

port

anci

aN

o de

pac

ient

esEf

ecto

Calid

ad

de

Estu

dio

sD

iseñ

oLi

mit

acio

nes

Con

sist

enci

aEv

iden

cia

dir

ecta

Pre

cisi

ón

Otr

os

asp

ecto

sR

iesg

o Tr

atam

ien

toR

iesg

o C

ontr

olR

elat

ivo

(95

% I

C)

o W

MD

Var

iab

le:

mor

talid

ad

9EC

ASin

lim

itaci

ones

Sin

in

cons

iste

ncia

sEv

iden

cia

dire

cta

Impr

ecis

ión1

21/4

90

(4,2

%)

19/4

20

(4,5

%)

RR 0

,85

(0,4

5 a

1,59

)+

++

M

oder

ada

9

Var

iab

le:

frac

aso

del t

rata

mie

nto

52EC

ASin

lim

itaci

ones

Dat

os

hete

rogé

neos

3Ev

iden

cia

dire

cta

Impr

ecis

ión1

60/3

34

(17,

9%)

88/2

88

(30,

5%)

RR 0

,46

(0,3

1 a

0,68

)+

++

M

oder

ada

8

Var

iab

le:

dura

ción

de

la e

stan

cia

hosp

itala

ria

(día

s, d

atos

neg

ativ

os s

on f

avor

able

s)

1EC

ASin

lim

itaci

ones

Dat

os

hete

rogé

neos

3Ev

iden

cia

dire

cta

–16

0 M

edia

(D

S)

8,50

(4,

45)

111

Med

ia

(DS)

9,7

0 (4

,45)

-1,2

0 (-

2,28

a

-0,1

2)

++

+

Mod

erad

a5

Var

iab

le:

efec

tos

adve

rsos

7EC

ASin

lim

itaci

ones

Sin

in

cons

iste

ncia

sEv

iden

cia

dire

cta

Impr

ecis

ión1

167/

356

(46,

9%)

96/2

94

(32,

6%)

RR 2

,29

(1,5

5 a

3,38

)+

++

M

oder

ada

7

Var

iab

le:

FEV1

(día

s, d

atos

neg

ativ

os s

on fav

orab

les)

7EC

ASin

lim

itaci

ones

Sin

in

cons

iste

ncia

sEv

iden

cia

dire

cta

–35

929

30,

14

(0,0

8 a

0,20

)+

++

M

oder

ada

1

Var

iab

le:

PaO

2 a

las

72 h

oras

2EC

ASin

lim

itaci

ones

Dat

os

hete

rogé

neos

4Ev

iden

cia

dire

cta

–75

80SM

D;0

,35

(0,0

3 a

0,67

)+

++

M

oder

ada

2

Var

iab

le:

Cal

idad

de

vida

––

––

––

––

––

1. I

mpr

ecis

ión

debi

do a

un

núm

ero

esca

so d

e ev

ento

s (m

enos

de

300)

. 2.

Con

side

rand

o so

lo lo

s es

tudi

os d

e bu

ena

calid

ad

3. H

eter

ogen

eida

d im

port

ante

4.

Het

erog

enei

dad

mod

erad

a

Page 31: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

103Guías de Práctica Clínica

Bibliografía AGREE Instrumento. Evaluación de guías de práctica clínica [Internet]. Colaboración

AGREE, Biblioteca Joseph Laporte, Osteba; 2001 [acceso 22/12/2007]. Disponible en: http://www.agreecollaboration.org/pdf/es.pdf

Agency for Healthcare Research and Quality. Systems to Rate the Strength of Scientific Evidence. Evidence Report/Technology Assessment: Number 47. AHRQ Publication No. 02-E015 [Internet]. Rockville: Agency for Healthcare Research and Quality; March 2002 [acceso 11/1/2008]. Disponible en: http://www.ahrq.gov/clinic/epcsums/strengthsum.htm.

Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al. Grading quality of evidence and strength of recommendations. BMJ. 2004; 328(7454):1490. [Texto completo]

Calderón C, Rotaeche R, Etxebarria A, Marzo M, Rico R, Barandiaran M. Gaining insight into the Clinical Practice Guideline development processes: qualitative study in a workshop to implement the GRADE proposal in Spain. BMC Health Serv Res. 2006; 6:138. [PubMed] [Texto completo]

Campbell F, Dickinson HO, Cook JV, Beyer FR, Eccles M, Mason JM. Methods underpinning national clinical guidelines for hypertension: describing the evidence shortfall. BMC Health Serv Res. 2006;6:47. [Texto completo]

Canadian Task Force on Preventive Health Care. History and methods [Internet]. Notario: CTFPHC; 2003 [acceso 22/12/2007]. Disponible en: http://www.ctfphc.org/

Chou R, Qaseem A, Snow V,Casey D, Cross JT, Shekelle P, et al., Diagnosis and treatment of low back pain: a joint clinical practice guideline from the American College of Physicians and the American Pain Society. Ann Intern Med. 2007;147(7): 478-91. [PubMed]

Chronic Obstructive Pulmonary Disease. National clinical guideline on management of chronic obstructive pulmonary disease in adults in primary and secondary care. Management of exacerbations of COPD Thorax. 2004; 59 (Suppl 1): i131-i156. [PubMed] [Resumen NGC]

Devereaux PJ, Anderson DR, Gardner MJ, Putnam W, Flowerdew GJ, Brownell BF, et al. Differences between perspectives of physicians and patients on anticoagulation in patients with atrial fibrillation: observational study. BMJ. 2001; 323(7323):1218-22. [PubMed] [Texto completo]

Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Manual Metodológico. Guías de Práctica Clínica en el SNS: I+CS. Nº 2006/0I. Madrid: Plan Nacional para el SNS del MSC, Instituto Aragonés de Ciencias de la Salud-I+CS; 2007 [Texto completo]

Guyatt G, Montori V, Devereaux PJ, Schunemann H, Bhandari M: Patients at the center: in our practice, and in our use of language (Editorial). ACP J Club. 2004;140:A11–A12. [PubMed]

Guyatt G, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, Alonso-Coello P, Schünemann HJ. GRADE: An Emerging Consensus on Rating Quality of Evidence and Strength of Recommendations. BMJ [en prensa]

Marzo Castillejo M, Alonso Coello P. GRADE Working Group. Clasificación de la calidad de la evidencia y fuerza de las recomendaciones. Aten Primaria. 2007; 37(1) [Texto completo]

Marzo M, Alonso P, Rotaeche R. ¿Cómo clasificar la calidad de la evidencia y la fuerza de las recomendaciones?. Aten Primaria. 2006; 37(1):5-8. [Texto completo]

Montori VM, Gandhi GY, Guyatt GH. Patient-important outcomes in diabetes--time for consensus. Lancet. 2007;370(9593):1104-6. [PubMed]

Schünemann HJ, Best D, Vist G, Oxman AD, for the GRADE working group. Letters, numbers, symbols, and words: how best to communicate grades of evidence and recommendations? CMAJ. 2003;169:677-80. [PubMed] [Texto completo]

Page 32: Calidad de la evidencia y grado de recomendación · la evidencia científica se presenta de manera jerárquica, y que algunos diseños de estudio están más sujetos a sesgos que

El sistema GRADE para la evaluación de la calidad de la evidencia ...

104 Guías de Práctica Clínica

Scottish Intercollegiate Guidelines Group. A guideline developers’ handbook [Internet]. Edinburgh: SIGN Publication No.50; 2001, updated 2004 [acceso 11/1/2008]. Disponible en: http://www.sign.ac.uk/guidelines/fulltext/50/index.html

WHO recommendations for the prevention of postpartum haemorrhage [Internet]. Geneva: WHO; 2007 [acceso 22/12/2007]. Disponible en: http://whqlibdoc.who.int/hq/2007/WHO_MPS_07.06_eng.pdf Acceso: 22 de diciembre de 2007.

Wood-Baker RR, Gibson PG, Hannay M, Walters EH, Walters JAE. Corticosteroides sistémicos para las exacerbaciones agudas de la enfermedad pulmonar obstructiva crónica; 2004 (Revisión Cochrane traducida). En: La Biblioteca Cochrane Plus, 2007 Número 4. Oxford: Update Software Ltd. Disponible en: http://www.update-software.com. (Traducida de The Cochrane Library, 2007 Issue 4. Chichester, UK: John Wiley & Sons, Ltd.). [Texto completo]