informe clasificador semiautomatico rr

8
Resumen. Este artículo presenta el rendimiento de un clasificador semi-automático de las derivaciones electrocardiográficas tomadas de una base de datos Dicardia. Para ello, primero utilizamos el detector Pan & Tompkins a para obtener la serie RR de los 8 cables de cada registro y, a continuación utilizamos medidas estadísticas para evaluar la calidad de los canales. Por último, el rendimiento del clasificador se prueba con diferentes parámetros de entrada. Keywords— intervalo RR, ECG, frecuencia cardiaca, variabilidad de la frecuencia cardiaca, desviación estándar. I. INTRODUCCIÓN A pesar de la gran cantidad de algoritmos desarrollados para la detección del complejo QRS, desde el clásico, propuesto por Pan & Tompkins [1] , pasando por los algoritmos basados en ondaletas [2] , y redes neuronales [3] , y de sus extensas validaciones, realizadas bajo diferentes condiciones de ruidos y morfologías [4,5] , no existen validaciones de estos detectores sobre bases de datos ECG durante una Prueba de Esfuerzo. Las validaciones en condiciones de esfuerzo han sido realizadas en su mayoría usando la base de datos de Noise Stress Test Database [6] , la cual está disponible para la comunidad científica en el portal de Physionet [7] y a pesar de tener una gran diversidad de ruidos no representa la gama de no linealidades y los cambios de frecuencia cardíaca presentes durante una Prueba de Esfuerzo. En un estudio reciente se usa el detector propuesto por Martínez [4] para estudiar las alteraciones del QRS de sujetos con el síndrome de Brugada durante una prueba de esfuerzo [8] , mediante el análisis de cambio de pendiente en el QRS. Rodríguez propone un método para la Validación Manual y Semiautomática de Series RR en una Base de Datos Electrocardiográfica de Prueba de Esfuerzo Juan Fajardo, Dario Sinchi {jairo.armijosa, david.garcia}@ucuenca.ec UNIVERSIDAD DE CUENCA Escuela de Ingeniería Electrónica y Telecomunicaciones. 1

Upload: pedro-novillo

Post on 14-Feb-2016

214 views

Category:

Documents


0 download

DESCRIPTION

Evaluación del clasificador Pan & Tompkins

TRANSCRIPT

Page 1: Informe Clasificador Semiautomatico Rr

Resumen. Este artículo presenta el rendimiento de un clasificador semi-automático de las derivaciones electrocardiográficas tomadas de una base de datos Dicardia. Para ello, primero utilizamos el detector Pan & Tompkins a para obtener la serie RR de los 8 cables de cada registro y, a continuación utilizamos medidas estadísticas para evaluar la calidad de los canales. Por último, el rendimiento del clasificador se prueba con diferentes parámetros de entrada.

Keywords— intervalo RR, ECG, frecuencia cardiaca, variabilidad de la frecuencia cardiaca, desviación estándar.

I. INTRODUCCIÓN

A pesar de la gran cantidad de algoritmos desarrollados para la detección del complejo QRS, desde el clásico, propuesto por Pan & Tompkins[1], pasando por los algoritmos basados en ondaletas[2], y redes neuronales[3], y de susextensas validaciones, realizadas bajo diferentes condiciones de ruidos y morfologías[4,5], no existen validaciones de estos detectores sobre bases de datos ECG durante una Prueba de Esfuerzo. Las validaciones en condiciones de esfuerzo han sido realizadas en su mayoría usando la base de datos de Noise Stress Test Database[6], la cualestá disponible para la comunidad científica en el portal de Physionet[7] y a pesar de tener una gran diversidad de ruidos no representa la gama de no linealidades y los cambios de frecuencia cardíaca presentes durante una Prueba de Esfuerzo.

En un estudio reciente se usa el detectorpropuesto por Martínez [4] para estudiar las

alteraciones del QRS de sujetos con el síndrome de Brugada durante una prueba de esfuerzo [8], mediante el análisis de cambio de pendiente en el QRS. Rodríguez propone un método para la extracción automática de ventanas estacionarias durante una prueba de esfuerzo para el estudio de laVariabilidad de la Frecuencia Cardíaca [9].

La obtención de series de variabilidad cardíaca durante una prueba de esfuerzo sigue siendo actualmente un problema abierto.

Adicionalmente no existen bases de datos deesfuerzo electrocardiográficas anotadas para realizar las validaciones. Recientemente se colocaron a la disposición de la comunidad científica tres bases de datos de ECG durante pruebas de esfuerzo, de estudios para isquemia miocárdica, pre-condicionamiento isquémico y neuropatía cardiaca diabética [10]. Esta última, llamada Dicardia, contiene 8-derivaciones ECG de 51 sujetos diabéticos con complicaciones cardiacas, 3 diabéticos sin complicaciones sin complicaciones cardiacas y 11 sujetos de control[11], y dispone de otras informaciones como química sanguínea y el reporte del cardiólogo sobre la prueba de esfuerzo. También dispone de información en formato ecgML[12] y anotaciones automáticas no validadas las cuales han sido de poca utilidad para los usuarios de Dicardia[9].

Dicardia es una Base de datos electrocardiográfica disponible para la comunidad científica que cuenta adicionalmente con información multi-paramétrica, lo cual puede ser

Validación Manual y Semiautomática de Series RR en una Base de Datos Electrocardiográfica de Prueba

de EsfuerzoJuan Fajardo, Dario Sinchi

{jairo.armijosa, david.garcia}@ucuenca.ec

UNIVERSIDAD DE CUENCAEscuela de Ingeniería Electrónica y Telecomunicaciones.

1

Page 2: Informe Clasificador Semiautomatico Rr

muy valioso para realizar diferentes tipos deestudios. Sin embargo amerita de anotaciones validadas que permitan una mejor explotación de la base de datos.

El objetivo principal de este trabajo es obtener y validar las series RR de Dicardia. Esperando que estas series RR puedan servir de base para otros estudios y que la metodología propuesta en este trabajo permita validar y obtener series RR de otras Bases de datos de esfuerzo.

Usando el detector de Pan & Tompkins se obtienen las series RR para las 8 derivaciones de cada registro de Dicardia. Se realiza una clasificación manual de cada serie. Luego a partir de medidas estadísticas se determinan los puntos fuera se establece una correlación entre el método automático y las clasificaciones manuales realizadas.

II. METODOLOGIA

A. Base de Datos DICARDIA

La base de datos Dicardia contiene 65 registros de diferentes sujetos que están divididos en tres subgrupos:

Diabéticos con Complicaciones Cardiacas: 51 Sujetos de 57±10 años de edad y peso 73±15 Kg.

Diabéticos sin Complicaciones Cardiacas: 3 Sujetos de 49±12 años de edad y peso 79±8 Kg.

Grupo Control: 11 Sujetos de 50±6 años de edad y peso 81±20 Kg.

Las señales se digitalizaron a una velocidad de muestreo de 500 Hz, 12 bits de resolución, y un rango dinámico de ± 5 mV.

B. Clasificación Manual

Debido a que la base de datos DICARDIA no tiene anotaciones médicas se utiliza una anotación manual para escoger el mejor canal. El primer paso consistió en obtener una señal de referencia, el proceso se realizo de forma manual para cada registro, tomando en cuenta la cantidad de ruido

observado y la cantidad de artefactos presente en cada canal, la selección del mejor canal se anotó como 1. El resto de las derivaciones de la ECG son clasificadas como buenas, malas e inservibles mediante una escala numérica del 2 al 4, como se muestra en la tabla 1.

TABLE IESCALA DE CLASIFICACIÓN MANUAL

1 MEJOR CANAL2 CANAL BUENO3 CANAL MALO

4 CANAL INSERVIBLE

En la siguiente imagen se observa la detección del complejo RR usando PAN & TOMPKINS de los 8 canales del registro ECG1723, las respectivas secuencias RR y su correspondiente clasificación manual en la tabla 1:

400 401 402 403 404 405 406 407 408 409 410-100

0

100

200

tiempo [segundos]

Amplitud

ECG1723 CANAL: 1

Channel 1 of the signalDetection Signal

0 500 1000 1500 2000 2500 30000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 1

RR vs. Tiempo

400 401 402 403 404 405 406 407 408 409 410-200

0

200

400

tiempo [segundos]

Amplitud

ECG1723 CANAL: 2

Channel 2 of the signalDetection Signal

0 500 1000 1500 2000 25000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 2

RR vs. Tiempo

400 401 402 403 404 405 406 407 408 409 410-200

-100

0

100

tiempo [segundos]

Amplitud

ECG1723 CANAL: 3

Channel 3 of the signalDetection Signal

0 500 1000 1500 2000 25000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 3

RR vs. Tiempo

400 401 402 403 404 405 406 407 408 409 410-200

-100

0

100

tiempo [segundos]

Amplitud

ECG1723 CANAL: 4

Channel 4 of the signalDetection Signal

0 500 1000 1500 2000 25000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 4

RR vs. Tiempo

Figura 1. Derivaciones ECG canales: DI, DII, V1, V2.

400 401 402 403 404 405 406 407 408 409 410-200

0

200

tiempo [segundos]

Amplitud

ECG1723 CANAL: 5

Channel 5 of the signalDetection Signal

0 500 1000 1500 2000 25000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 5

RR vs. Tiempo

400 401 402 403 404 405 406 407 408 409 410-200

0

200

400

tiempo [segundos]

Amplitud

ECG1723 CANAL: 6

Channel 6 of the signalDetection Signal

0 500 1000 1500 2000 25000

5000

10000

tiempo [segundos]

RR

ECG1723 RR CANAL: 6

RR vs. Tiempo

400 401 402 403 404 405 406 407 408 409 410-200

0

200

400

tiempo [segundos]

Amplitud

ECG1723 CANAL: 7

Channel 7 of the signalDetection Signal

0 500 1000 1500 2000 25000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 7

RR vs. Tiempo

400 401 402 403 404 405 406 407 408 409 410-200

0

200

400

tiempo [segundos]

Amplitud

ECG1723 CANAL: 8

Channel 8 of the signalDetection Signal

0 500 1000 1500 2000 25000

500

1000

tiempo [segundos]

RR

ECG1723 RR CANAL: 8

RR vs. Tiempo

Figura 2. Derivaciones ECG canales: V3, V4, V5, V6.

2

Page 3: Informe Clasificador Semiautomatico Rr

C. Clasificación SemiautomáticaEl método consiste en dividir la señal en

ventanas, luego se obtiene la desviación estándar de cada ventana. Se aplica un umbral de máxima desviación estándar aceptable (10 y 15%) para cada ventana (10, 15, 20) para tener una señal limpia, y se realiza un conteo de las ventanas en las cuales no se cumple el umbral establecido. La clasificación se realiza mediante el porcentaje de ventanas que sobrepasan el umbral establecido según la tabla 3.

TABLE IIIESCALA DE CLASIFICACIÓN SEMIAUTOMÁTICA

PORCENTAJE DE VENTANAS

CLASIFICACIÓN

<30% MEJOR CANAL<40% CANAL BUENO<50% CANAL MALO

≥50% CANAL INSERVIBLE

D. Índice de Coincidencia

La métrica que usamos para evaluar el algoritmo de anotaciones automáticas es el índice de coincidencia (ecuación 1).

En donde C es el índice, n representa el número de registros (pacientes), m el número de canales, M y A son las matrices de anotaciones manuales y automáticas respectivamente, cuyas columnas contienen los canales y cuyas filas contienen los registros. Lo que busca este índice es evidenciar el canal de un registro que ha sido clasificado con la misma clase tanto en las anotaciones manuales como automáticas.

III. RESULTADOS En la tabla 4 se encuentran las anotaciones que se

realizaron de manera manual mientras que en la tabla 5 se encuentran las anotaciones que se realizaron de manera automática. En las tablas se

presentan únicamente los registros representativos de la base de datos.

Las anotaciones automáticas se obtuvieron usando dos parámetros de entrada: el tamaño de la ventana (10,15 y 20) y el umbral de la desviación estándar (10 y 15%). Las derivaciones de las señales ECG se clasificaron en dos, tres y cuatro clases (para las anotaciones manuales se utilizaron cuatro clases, como se menciona en la sección 2.2). Las secciones 3.1, 3.2 y 3.3 detallan la comparación usando diferentes números de clases.

TABLE IVANOTACIONES MANUALES

PAC

IEN

TE

BA

SE D

E

DA

TO

S

CA

NA

L 1

CA

NA

L 2

CA

NA

L 3

CA

NA

L 4

CA

NA

L 5

CA

NA

L 6

CA

NA

L 7

CA

NA

L 8

S14887 ECG15 3 1 2 1 1 1 1 1

S10385 ECG462 1 1 4 2 1 1 1 1

S14990

ECG1761 4 4 4 4 4 4 4 3

S15016

ECG1803 4 1 1 1 1 1 1 1

S15139

ECG2029 4 4 4 4 4 4 2 3

A. Comparación usando Cuatro Clases

Los resultados devueltos por el algoritmo se encuentran en la matriz (A). Cada elemento de la matriz puede tomar un valor entre uno y cuatro como se muestra en la Tabla 1.

Analizando los resultados presentados en la Tabla 4, podemos observar que los resultados en general del índice utilizando una jerarquización con cuatro clases son malos, ya que este índice es menor al 50%.

Mientras mayor sea el tamaño de la ventana, el índice de coincidencia se reduce.

TABLE VCOMPARACIONES ENTRE ANOTACIONES MANUALES Y AUTOMÁTICAS USANDO

CUATRO CLASES

CLASESREF. BUENO MALO NO SIRVE

3

Page 4: Informe Clasificador Semiautomatico Rr

MANUAL11.92% 37.31% 26.35% 24.42%

VE

NT

AN

A

UM

BR

AL

AUTOMÁTICO

ÍND

ICE

DE

C

OIN

CID

EN

CIA

(C

)

10 10-15 55.58% 10.19% 7.88% 26.35% 39.42%15 10-15 57.31% 11.54% 4.81% 26.35% 37.12%20 10 53.27% 10.58% 5.77% 30.38% 39.62%20 10-15 62.12% 7.50% 8.65% 21.73% 35.19%20 15 66.15% 7.31% 7.31% 19.23% 31.35%

B. Comparación usando Tres Clases

En la clasificación de tres estados se tomó en cuenta que entre el estado 1 (Mejor canal) y el estado 2 (Canal Bueno), no había mayor diferencia. Por lo tanto, la comparación entre las anotaciones manuales y automáticas se realiza usando la tabla 6.

TABLE VIESCALA DE CLASIFICACIÓN AUTOMÁTICA DE TRES ESTADOS

1 MEJOR CANAL Y CANAL BUENO

2 CANAL MALO3 CANAL INSERVIBLE

Los resultados obtenidos se observan en la siguiente tabla.

TABLE VIICOMPARACIONES ENTRE ANOTACIONES MANUALES Y AUTOMÁTICAS USANDO

TRES CLASES

CLASESBUENO MALO INSERVIBLE

MANUAL49.23

% 26.35% 24.42%

VE

NT

AN

A

UM

BR

AL

AUTOMÁTICO

ÍND

ICE

DE

C

OIN

CID

EN

CIA

10 10-15 65.77% 7.88% 26.35% 73.08%

15 10-15 68.85% 4.81% 26.35% 73.08%

20 10 63.85% 5.77% 30.38% 72.50%

20 10-15 69.62% 8.65% 21.73% 71.92%

20 15 73.46% 7.31% 19.23% 68.27%

C. Comparación usando Dos Clases

En la clasificación de dos estados se tomó en cuenta dos estados, estado 1 (canal bueno) y el estado 2 (Canal malo). Por lo tanto, la comparación entre las anotaciones manuales y automáticas se realiza usando la tabla 8.

TABLE VIIIESCALA DE CLASIFICACIÓN AUTOMÁTICA DE TRES ESTADOS

1 CANAL BUENO

2 CANAL MALO

Y en la tabla 9 se observan los resultados obtenidos usando únicamente dos clases para el clasificador.

TABLE IXCOMPARACIONES ENTRE ANOTACIONES MANUALES Y AUTOMÁTICAS USANDO

CUATRO CLASES

CLASESBUENO MALO

MANUAL48.21% 51.79%

VE

NT

AN

A

UM

BR

AL

AUTOMÁTICO

ÍND

ICE

DE

C

OIN

CID

EN

CIA

(C

)

10 10-15 65.77% 34.23% 80.77%

15 10-15 68.85% 31.15% 78.85%

20 10 63.85% 36.15% 80.77%

20 10-15 69.62% 30.38% 77.69%

20 15 73.46% 26.54% 74.62%

Finalmente, en la tabla 10 se muestran los índices de coincidencia con sus respectivos porcentajes para

4

Page 5: Informe Clasificador Semiautomatico Rr

cada uno de los métodos de clasificación anteriormente vistos.

TABLE XVALORES OBTENIDOS PARA EL ÍNDICE DE COINCIDENCIA EN FUNCIÓN DEL

NUMERO DE CLASES.ÍNDICE DE COINCIDENCIA

VENTANA UMBRAL2

CLASES3

CLASES4

CLASES10 10-15 80.77% 73.08% 39.42%15 10-15 78.85% 73.08% 37.12%20 10 80.77% 71.92% 35.19%20 10-15 77.69% 72.50% 39.62%20 15 74.62% 68.27% 31.35%

En la tabla se observa claramente que con únicamente un clasificador de dos clases los porcentajes de índice de coincidencia mejoran sustancialmente con respecto a los de 3 y 4 clases. Además, se puede observar que se obtienen mejores resultados con dos técnicas: 1) 10 ventanas y 2 umbrales de 10-15, y 2) con 20 ventanas y un umbral de 10. Ambas técnicas presentan el mismo porcentaje de índice de coincidencia de 80.77%.

IV. CONCLUSIONES

La base de datos DICARDIA es muy extensa, por lo que realizar una anotación visual de la base de datos es un proceso tedioso y largo. Por este motivo es necesaria una forma automática de obtener el canal de referencia.

En las primeras etapas de la diabetes, el comportamiento particular de los sistemas nerviosos autónomos (aumento del tono simpático y disminución del tono parasimpático) observa a través de variabilidad de la frecuencia (HRV), esto se ha relacionado con algunos trastornos cardiovasculares.

Se obtuvo las secuencias RR de cada una de las derivaciones ECG para cada paciente de la base de datos DICARDIA.

Se utilizaron medidas estadísticas, para en un principio tener información de todos los canales, y determinar el canal más limpio o con mejores detecciones, para de esta manera clasificar las demás derivaciones en canales que pueden ser filtrados, para tener mejores detecciones y canales

que tienen demasiado ruido y por lo tanto son inservibles.

Finalmente, se comparó cada derivación con respecto a la mejor derivación obtenida del ECG.

REFERENCIAS [1] J. Pan and W. J. Tompkins, “A real-time qrs detection

algorithm,” Biomedical Engineering, IEEE Transactions on (3), pp. 230–236, 1985.

[2] C. Li, C. Zheng, and C. Tai, “Detection of ecg characteristic points using wavelet transforms,” Biomedical Engineering, IEEE Transactions on 42(1), pp. 21–28, 1995.H. Poor, An Introduction to Signal Detection and Estimation. New York: Springer-Verlag, 1985, ch. 4.

[3] Z. Dokur, T. Olmez, E. Yazgan, and O. K. Ersoy, “Detection of ecg waveforms by neural networks,” Medical engineering & physics 19(8), pp. 738–741, 1997.

[4] J. P. Martinez, R. Almeida, S. Olmos, A. P. Rocha, and P. Laguna, “A wavelet-based ecg delineator: evaluation on standard databases,” Biomedical Engineering, IEEE Transactions on 51(4), pp. 570–581, 2004.

[5] J. Dumont, A. I. Hernandez, and G. Carrault, “Improving ecg beats delineation with an evolutionary optimization process,” Biomedical Engineering, IEEE Transactions on 57(3), pp. 607–615, 2010.

[6] G. B. Moody and R. G. Mark, “The mit-bih arrhythmia database on cd-rom and software for use with it,” in Computers in Cardiology 1990, Proceedings., pp. 185–188, IEEE, 1990.

[7] A. L. Goldberger, L. A. Amaral, L. Glass, J. M. Hausdorff, P. C. Ivanov, R. G. Mark, J. E. Mietus, G. B. Moody, C.-K. Peng, and H. E. Stanley, “Physiobank, physiotoolkit, and physionet components of a new research resource for complex physiologic signals,” Circulation 101(23), pp. e215–e220, 2000.

[8] D. Romero, N. Behard, A. Martin-Yebra, J. P. Martinez, P. Laguna, E. Pueyo, G. Carrault, P. Mabo, and A. Hernández, “Analysis of qrs alterations during stress test recordings on patients with brugada syndrome,” in Computing in Cardiology Conference (CinC), 2014, pp. 137–140, IEEE, 2014.

[9] M. G. Rodr´ıguez, C. A. Ledezma, G. Perpiñán, S. Wong, and M. Altuve, “Extracting stationary segments from non-stationary synthetic and cardiac signals,” in Tenth International Symposium on Medical Information Processing and Analysis, pp. 92870B–92870B, International Society for Optics and Photonics, 2015.

[10] C. Ledezma, E. Severeyn, G. Perpinan, M. Altuve, S. Wong, et al., “A new on-line electrocardiographic records database and computer routines for data analysis,” in Engineering in Medicine and Biology Society (EMBC), 2014 36th Annual International Conference of the IEEE, pp. 2738–2741, IEEE, 2014.

[11] L. Quintero, S. Wong, R. Parra, J. Cruz, N. Ante para, D. Almeida, F. Ng, and G. Passariello, “Stress ecg and laboratory database for the assessment of diabetic

5

Page 6: Informe Clasificador Semiautomatico Rr

cardiovascular autonomic neuropathy,” in Engineering in Medicine and Biology Society, 2007. EMBS 2007. 29th Annual International Conference of the IEEE, pp. 4339–4342, 2007

[12] H. Wang, F. Azuaje, B. Jung, and N. Black, “A markup language for electrocardiogram data acquisition and analysis (ecgml),” BMC Medical Informatics and Decision Making 3(1), p. 4, 2003.

6