Santiago Pérez CachafeiroMetodólogo. Fundación I+D+iComplexo Hospitalario de Pontevedra25 de Mayo de 2011
¿Cómo preparar una hoja de recogida de datos y gestionar los datos?
3
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
4
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
5
1. Introducción a la Gestión de Datos en Biomedicina
• Aspectos Relevantes
Planificación: aspectos ético‐legales
Depuración y análisis: software/apoyo estadístico
Recogida de datos: estructura de las bases de datos
6
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
7
2. Objetivos
• Aprender a definir las variables
• Importancia de la definición
• Importancia de los valores perdidos
• Importancia de la homogeneidad en la recogida de datos
8
2. Objetivos
• Conocer la organización interna de una base de datos
• Vista de variables
• Vista de datos
• Exportabilidad
9
2. Objetivos
• Aprender a diseñar una base de datos
• Definir variables
• Diseñar hoja de recogida
• Diseñar control de calidad
• Cumplimiento de la legislación vigente
ANONIMIZADAS
10
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
11
3. 1 Tipos de variables | Clasificación
• Cuantitativas– Contínuas
– Discretas
• Cualitativas– Categóricas
– Ordenadas o Graduadas
– Dicotómicas
• Temporales (contínuas)– Fecha
– Hora
• Textuales– Respuestas abiertas
12
3. 1 Tipos de variables | Importancia de las definiciones
• Caso es el individuo que presenta un evento en la población de estudio– Caso episodio de enfermedad
– P.ej caso de gripe
• Definición 1. Síntomas + Fiebre>38– 1000 casos
• Definición 2. Síntomas + Fiebre>37,5– 1500 casos
• Casos diagnosticados en AP– 3000 episodios de gripe
13
3. 1 Tipos de variables | Importancia de las definiciones
• Consumo de tabaco.
• Definición de no fumador
– No durante el último mes
– No durante el último año
– Nunca consumió
14
3. 1 Tipos de variables | Definiciones estándar
• Clasificaciones internacionales– NYHA para Insuficiencia Cardíaca
– Katz, Barthel,… para independencia en actividades habituales
– ASA de riesgo quirúrgico
• Cuestionarios– Calidad de vida: EuroQoL 5, SF-36, SF-12, …
– Cuestionarios específicos de patologías concretas
• Dos formas de recogida– Preguntas por separado
– Índice conjunto
15
3. 1 Tipos de variables | Definiciones estándar
• Fármacos– Clasificación Anatomoterapeútica
• Enfermedades– CIE-10
• CIE 9 Modificado
– CIAP-2
– Clasificaciones anatomopatológicas
16
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
17
• Tenemos que describir el riesgo cardiovascular de una población (p.ej. la gente del departamento en que trabajamos). Para ello tenemos que:– Crear una estructura de base de datos con las variables que
consideremos oportunas
– Incluir definiciones operativas
Variable Tipo Códigos Definición
Sexo Dicotómica 1 Hombre2 Mujer
Se clasifican según fenotipo
Edad Numérica Contínua Según refiere el paciente
3. 2 Estructura de una base de datos | Ejercicio práctico
18
Ejercicio
Variable Tipo Códigos DefiniciónSexo Dicotómica 1 Hombre
2 MujerSe clasifican según fenotipo
Edad Numérica Continua (días) Según refiere el paciente
Fecha Fecha/hora Continua (días) La del día de recogida
HDL Numérica Continua (mg/dl) UI, uso en fórmulas de la medida Regicor
LDL Numérica Continua (mg/dl) UI, uso en fórmulas de la medida Regicor
Colesterol Numérica Continua (mg/dl) UI, uso en fórmulas de la medida Regicor
Fumador Dicotómica 1 Sí 2 No Al menos 1 cigarrillo último mes (PAPPS)
DM Dicotómica 1 Sí 2 No Definición ADAHTA Categórica
ordenada1 Óptima (<120/80)2 Normal (<130/85)3 Normal alta (<140/90)4 Hipertenso I (<160/100)5 Hipertenso II-IV
Categorías AHA
19
3. 2 Estructura de una base de datos | Vista de variables
20
3. 2 Estructura de una base de datos | Vista de variables
21
3. 2 Estructura de una base de datos | Vista de datos
22
3. 2 Estructura de una base de datos | Vista de datos
23
3. 2 Estructura de una base de datos | Software más empleado
• Microsoft Office®– Excel®
– Access®
• SPSS®– Statistical Package for
Social Sciences
• Stata®
• Freeware– R
– Openepi
– Epiinfo
– Epidat
– Epidata
– Weka
24
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
25
3. 3 La hoja de recogida
26
3. 3 La hoja de recogida | Formato papel
27
3. 3 La hoja de recogida | Formato electrónico
28
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
29
• Al definir las variables– Variables críticas
• No se puede incluir al paciente en el análisis si no está correctamente
recogida
– Variables no críticas
• La recogida de estas variables no afecta al objetivo principal, aunque puede
afectar a los secundarios
• En cualquier caso– Algunos pacientes van a tener campos vacíos o desconocidos
3.4 Depuración de los datos
30
3.4 Depuración de los datos | Importancia de los desconocidos (missing)
31
3.4 Depuración de los datos | Importancia de los desconocidos (missing)
32
• Eliminar pacientes del análisis
• Análisis de sensibilidad– Incluyendo los desconocidos (missing) como la mejor de las opciones
– Incluyendo los desconocidos (missing) como la peor de las opciones
– Modelizando valores
• Un número elevado de datos no recogidos en una variable cuestiona– La validez y fiabilidad de la variable
– La representatividad de la muestra alcanzada de participantes
3.4 Depuración de los datos | Manejo de los desconocidos (missing)
33
• Rango de valores aceptables– Hemoglobina (de 4 a 15)
• Paciente con Hb de 2
• ¿es real?
• Comprobar nuevamente– Corregir: es 12– Analizar como tal: realmente es 2 (outlier)– Poner como desconocido: no sabemos de dónde salió ese 2
– Si el valor es real, puede implicar que el paciente no cumple criterios de
inclusión y hay que eliminarlo de la base de datos
3.4 Depuración de los datos | Valores anómalos
34
• En ocasiones se registra más de una vez la misma información– Varios investigadores recogen los datos de un mismo sujeto
– Un sujeto puede tener más de un número de Historia Clínica
– Se usan varias fuentes de información que pueden tener cierta
superposición
• Antes del análisis hay que localizar y eliminar los registros duplicados– Quedarse con el que proviene de la fuente de datos más fiable
3.4 Depuración de los datos | Registros duplicados
35
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Resumen
5. Bibliografía
36
4. Resumen
• Antes de comenzar a recoger los datos– Decidir qué variables queremos recoger
– Definir las variables que queremos recoger
• Nombre
• Tipo
• Códigos equivalentes si la variable no es numérica
• Rango aceptable si la variable es numérica
• Definición operativa justificada en los antecedentes
– Conseguir autorizaciones (CEIC, AEMPS, AEPD, Gerencia,…)
– No recoger nombre y apellidos
37
4. Resumen
• Recogida de de datos– Primero formato papel y luego electrónico
– Directamente formato electrónico
• Depuración (control de calidad)– Pensar qué vamos a hacer con los desconocidos y valores perdidos
• Desconocido: lo he buscado y no lo tengo
• Perdido: no sé si lo he buscado, tengo que buscarlo para que sea desconocido
– Comprobar que los valores anómalos son reales
– Eliminar los registros duplicados
• Análisis estadístico
38
Índice
1. Introducción
2. Objetivos
i. Aprender a definir las variables
ii. Conocer la organización interna de una base de datos
iii. Aprender a diseñar una base de datos
3. Desarrollo
i. Tipos de variables
ii. Estructura de una base de datos
iii. La hoja de recogida
iv. Depuración de los datos
4. Conclusión/Resumen
5. Bibliografía
39
5. Bibliografía
• Conceptos generales de investigación biomédica– Curso de Metodología de la Investigación Fisterra
• http://www.fisterra.com/mbe/investiga/index.asp
• Gestión y análisis estadístico de los datos– Material docente de la Unidad de Bioestadística Clínica
• http://www.hrc.es/investigacion/bioest/M_docente.html