traducción de series temporales continuas a simbólicas · - 3 - 2. definición del problema 2.1....

25
- 1 - Traducción de Series Temporales Continuas a Simbólicas Agustín Santamaría Falcón Juan Pedro Caraça-Valente Universidad Politécnica de Madrid Facultad de Informática Abstract Basándose en el proceso intuitivo que la mayoría de los expertos tienen a la hora de analizar una secuencia temporal, este trabajo de investigación se centra en un procedimiento automatizado que obtiene, a partir de una secuencia temporal, ese conjunto de símbolos que el experto de forma innata habría seleccionado. Este procedimiento se llama “Método de Extracción de Símbolos” (MES). Desde el punto de vista del análisis de una secuencia temporal, la traducción de dicha secuencia, formada por valores numéricos, a una secuencia formada por símbolos, ofrece un paso más próximo al pensamiento del experto y consecuentemente se esta más cerca de su experiencia en este campo. Esto ayuda enormemente poder analizar secuencias por si solas e incluso a poder comparar unas secuencias con otras. Evidentemente, el hecho de tener un conjunto de símbolos en lugar de números también ayuda al experto a la hora de dar un diagnóstico. Este trabajo se centra en el dominio isocinético 1 , por tanto en los siguientes epígrafes se hablará de secuencias temporales de isocinéticos o secuencias isocinéticas. Se describirá los módulos que forman parte del MES y se presentarán ejemplos tanto en el dominio isocinético como en otros dominios con el objetivo de mostrar la bondad del mismo. 1. Introducción Hoy en día el análisis de colecciones de datos ordenados en el tiempo, denominadas series temporales, es fundamental en muchos campos como la ingeniería, la medicina o el mundo de los negocios. Estudiar cómo se ha comportado una variable hasta el momento puede ser de gran valor a la hora de predecir su comportamiento futuro. Del mismo modo, determinar qué otros valores han tenido un comportamiento similar puede ayudar a decidir las acciones a tomar, bien sea para conservar la evolución actual o bien para modificarla radicalmente. Por este motivo, existe una necesidad cada vez mayor de buscar series temporales de datos similares a una dada en una base de datos o en un conjunto de bases de datos. Se puede pensar que con una comparación secuencial de dos series temporales dadas bastaría para saber si son similares o no. Sin embargo, no se trata de realizar un rastreo secuencial de las dos secuencias temporales sino de encontrar métodos o técnicas que ayuden a disminuir ese rastreo. Esto es muy importante teniendo en cuenta la cantidad ingente de información que se puede encontrar en diferentes bases de datos y de las cuales se tiene que extraer información específica de un dominio concreto. Las técnicas que facilitan la extracción de información de estas bases de datos forman parte del campo del data mining y este trabajo se centrará en datos que se modifican en el tiempo, es decir, secuencias temporales, las cuales tienen una importancia vital en muchos dominios como el dominio médico o el bursátil. Otros objetivos que son de interés en este campo son: 1 Relativo a secuencias temporales obtenidas mediante una máquina de isocinéticos, la cual consiste en un soporte físico sobre el que el paciente realiza ejercicios de extensión y flexión de alguna de sus extremidades (rodilla, codo, tobillo, etc ...) a velocidad constante. La máquina va registrando la fuerza ejercida en cada instante del ejercicio dando lugar a una secuencia temporal.

Upload: truongthien

Post on 01-Nov-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 1 -

Traducción de Series Temporales Continuas a Simbólicas

Agustín Santamaría Falcón Juan Pedro Caraça-Valente

Universidad Politécnica de Madrid Facultad de Informática

Abstract

Basándose en el proceso intuitivo que la mayoría de los expertos tienen a la hora de analizar una secuencia temporal, este trabajo de investigación se centra en un procedimiento automatizado que obtiene, a partir de una secuencia temporal, ese conjunto de símbolos que el experto de forma innata habría seleccionado. Este procedimiento se llama “Método de Extracción de Símbolos” (MES). Desde el punto de vista del análisis de una secuencia temporal, la traducción de dicha secuencia, formada por valores numéricos, a una secuencia formada por símbolos, ofrece un paso más próximo al pensamiento del experto y consecuentemente se esta más cerca de su experiencia en este campo. Esto ayuda enormemente poder analizar secuencias por si solas e incluso a poder comparar unas secuencias con otras. Evidentemente, el hecho de tener un conjunto de símbolos en lugar de números también ayuda al experto a la hora de dar un diagnóstico.

Este trabajo se centra en el dominio isocinético1, por tanto en los siguientes epígrafes se hablará de secuencias temporales de isocinéticos o secuencias isocinéticas. Se describirá los módulos que forman parte del MES y se presentarán ejemplos tanto en el dominio isocinético como en otros dominios con el objetivo de mostrar la bondad del mismo.

1. Introducción

Hoy en día el análisis de colecciones de datos ordenados en el tiempo, denominadas series temporales, es fundamental en muchos campos como la ingeniería, la medicina o el mundo de los negocios. Estudiar cómo se ha comportado una variable hasta el momento puede ser de gran valor a la hora de predecir su comportamiento futuro. Del mismo modo, determinar qué otros valores han tenido un comportamiento similar puede ayudar a decidir las acciones a tomar, bien sea para conservar la evolución actual o bien para modificarla radicalmente. Por este motivo, existe una necesidad cada vez mayor de buscar series temporales de datos similares a una dada en una base de datos o en un conjunto de bases de datos. Se puede pensar que con una comparación secuencial de dos series temporales dadas bastaría para saber si son similares o no. Sin embargo, no se trata de realizar un rastreo secuencial de las dos secuencias temporales sino de encontrar métodos o técnicas que ayuden a disminuir ese rastreo. Esto es muy importante teniendo en cuenta la cantidad ingente de información que se puede encontrar en diferentes bases de datos y de las cuales se tiene que extraer información específica de un dominio concreto. Las técnicas que facilitan la extracción de información de estas bases de datos forman parte del campo del data mining y este trabajo se centrará en datos que se modifican en el tiempo, es decir, secuencias temporales, las cuales tienen una importancia vital en muchos dominios como el dominio médico o el bursátil. Otros objetivos que son de interés en este campo son:

1 Relativo a secuencias temporales obtenidas mediante una máquina de isocinéticos, la cual consiste en un soporte físico sobre el que el paciente realiza ejercicios de extensión y flexión de alguna de sus extremidades (rodilla, codo, tobillo, etc ...) a velocidad constante. La máquina va registrando la fuerza ejercida en cada instante del ejercicio dando lugar a una secuencia temporal.

Page 2: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 2 -

• Identificar empresas con un patrón de crecimiento similar. • Determinar aquellos productos con patrones de venta similares. • Encontrar si un éxito musical es similar a uno que se encuadre dentro de un conjunto de éxitos

con copyright anterior. • Encontrar los fragmentos de curvas sísmicas que son similares o buscar un patrón que nos

describa un movimiento sísmico o una irregularidad geológica. • Encontrar elementos astrológicos similares basándose en la radiación de cada uno de ellos en el

tiempo.

Lo primero que se necesita para poder hacer data mining con series temporales es una medida de la distancia ([FJMM95], [JAG91], [JAG95], [SK99], [HP97], [CLR93]) entre dos secuencias temporales. Lo que se pretende es buscar secuencias temporales que se parecen entre si, o buscar aquellas secuencias que se parecen a una dada o buscar patrones de comportamiento dentro de una secuencia temporal, etc… En definitiva se necesita estudiar cuando dos secuencias temporales son similares o no y por lo tanto una primera cuestión importante es establecer una medida de la distancia. Sin embargo, en muchos casos, esto no es suficiente dado que es necesario un paso previo de limpieza y transformación de las secuencias temporales a comparar antes de proceder a la comparación propiamente dicha. Estas transformaciones forman parte del análisis de las series temporales ([BC96], [PWZP00], [APWZ95], [ALSS95])

Los trabajos desarrollados hasta la fecha buscan series o secciones de series temporales que se parecen entre sí. Sin embargo, en algunos ámbitos puede ser necesario buscar la serie temporal o una sección de la serie característica, normalmente denominada patrón. Existen varios trabajos relacionados con la búsqueda de patrones, campos como la estadística (Jain and Dubes 1988), el procesamiento de la señal (Poor 1988), algoritmos genéticos (Goldberg 1989; Packard 1990), y el reconocimiento de voz (Ainsworth 1988), los cuales ofrecen una variedad de técnicas que se pueden elegir para formalizar una algoritmo de comparación. Otras referencias son [HK01] [BS95] [SC90] [WEH98] [CC87] [CCT94] . El dominio médico es un claro ejemplo de aplicación de este problema. El proyecto I4 (Interfaz Inteligente para la interpretación de una máquina de isocinéticos) surgió como respuesta a la necesidad de adaptación de la máquina de isocinéticos perteneciente a la Escuela de Fisioterapia de la ONCE. Básicamente, una máquina de isocinéticos consiste en un soporte físico sobre el que el paciente realiza ejercicios de extensión y flexión de alguna de sus extremidades (rodilla, codo, tobillo, etc ...) a velocidad constante. La máquina va registrando la fuerza ejercida en cada instante del ejercicio. El software con que contaba inicialmente la máquina de isocinéticos presentaba graves carencias a la hora de dar los resultados de los ejercicios: los datos que suministraba eran pobres y de difícil interpretación para los usuarios.

La interpretación de datos isocinéticos es un área de aplicación de las técnicas de data mining. Los sistemas isocinéticos constituyen un instrumento eficaz en diversos aspectos relacionados con la fuerza muscular, como son, el diagnóstico de lesiones, el seguimiento de su rehabilitación, la detección precoz de talentos deportivos o la detección de lesiones simuladas. Sin embargo, su carácter innovador y la consecuente ausencia de especialistas en la materia dificultan en gran medida su implantación.

El proyecto I4 desarrolló un modelo basado en técnicas de inteligencia artificial y de data mining, que proporciona el apoyo necesario a los médicos que no son especialistas en la interpretación de datos isocinéticos. Este proyecto ha requerido un esfuerzo coordinado entre médicos expertos en isocinéticos e ingenieros informáticos. Es en este punto donde se introducen las técnicas necesarias para la correcta interpretación de los datos isocinéticos. En particular, este trabajo se centra en el desarrollo de una técnica que permitirá trabajar con una secuencia de símbolos que el experto habrá definido basándose en su experiencia y ayudará tanto a los médicos para su análisis diario como a las técnicas de comparación que se desarrollen con el objetivo de dar un resultado más eficiente sobre la similaridad de series temporales, con las que se trabaja en este dominio.

El resto del artículo esta organizado de la siguiente manera: en la sección 2 se describe el problema; en la sección 3 se presenta el método que se ha diseñado e implementado (MES (Método de Extracción de Símbolos) ) para pasar a la sección 4 donde se mostrará los resultados del mismo. Por último en la sección 5 se presentan las conclusiones y líneas futuras.

Page 3: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 3 -

2. Definición del problema

2.1. Contexto

Existen multitud de base de datos que almacenan información temporal, constituyendo por tanto, secuencias de datos en el tiempo, o lo que es lo mismo, secuencias temporales. Se pueden encontrar ejemplos característicos de este tipo de secuencia en el dominio bursátil donde se tienen diferentes valores de las acciones respecto al tiempo, en el dominio empresarial donde se puede tener un número de compra o de venta de un determinado producto respecto al tiempo, en el dominio médico donde en muchos análisis médicos se almacena una gran cantidad de series de datos médicos que representan distintos valores a lo largo del tiempo. Sin embargo, hay que tener en cuenta que, en la mayoría de estos casos, el análisis de cada serie temporal debería ser llevado a cabo por una persona experta en el dominio que se este considerando. De ese modo, gracias a que un experto en economía conoce las series bursátiles podrá explicar lo que esta ocurriendo en cada momento en el dominio bursátil, es decir, tendrá una explicación basada en sus conocimientos y experiencia, la cual dará como resultado una interpretación de las diferentes partes morfológicas de la secuencia temporal.

La mayoría de los expertos, a la hora de analizar una determinada secuencia, independiente del campo que dominen, de forma intuitiva, desglosan la secuencia temporal en partes que tienen significado por si mismas y que se llamaran símbolos, e ignora por el contrario, de forma intuitiva también, partes de la secuencia temporal que no aportan información. Por tanto el experto, gracias a su conocimiento y a su experiencia, habrá extraído de una primera pasada un conjunto de símbolos iniciales que son significantes a la hora de dar un explicación sobre la evolución de los datos en el tiempo de dicha secuencia. Seguidamente, los expertos, suelen agrupar esos símbolos en un conjunto denominado patrón, el cual también tiene significado por si mismo y que caracteriza una determinada situación. Ese patrón explica un comportamiento particular y localizado de la secuencia temporal. De este modo el experto, basándose en un conjunto de patrones, da una determinación en cuanto al comportamiento de la secuencia temporal en su conjunto. Basándose en el proceso intuitivo que la mayoría de los expertos tienen a la hora de analizar una secuencia temporal, este trabajo de investigación se centra en un procedimiento automatizado que obtiene, a partir de una secuencia temporal, ese conjunto de símbolos que el experto de forma innata habría seleccionado. Se debe tener constancia de la importancia que tiene la obtención de estos símbolos en el proceso de análisis de una secuencia temporal, ya que gracias a ellos se podría continuar automatizando otros procesos como la obtención de patrones a partir de símbolos o la comparación de unas secuencias con base simbólica en lugar de numérica. Desde el punto de vista del análisis de una secuencia, la traducción de dicha secuencia, formada por valores numéricos, a una secuencia formada por símbolos, ofrece un paso más próximo al pensamiento del experto y consecuentemente se esta más cerca de su experiencia en este campo. Esto ayuda enormemente poder analizar secuencias por si solas e incluso a poder comparar unas secuencias con otras. Evidentemente, el hecho de tener un conjunto de símbolos en lugar de números también ayuda al experto a la hora de dar un diagnóstico.

Como se ha explicado en el primer capítulo, este trabajo se centra en el dominio isocinético, por tanto en los siguientes apartados se hablará de secuencias temporales de isocinéticos o secuencias isocinéticas. En la sección anterior se ha descrito la aplicación I4. Aunque esta aplicación dispone de un sistema que compara automáticamente las series temporales lo que se pretende es buscar un nuevo método que transforme la serie temporal en otro tipo de serie con el objetivo de que la comparación esté más ligada a la comparación que realizaría el experto de forma instintiva. La traducción de la serie temporal a otro tipo de serie es lo que se describe en los siguientes epígrafes.

2.2. Planteamiento del problema

El sistema I4 permite realizar la comparación de dos series temporales de forma visual y de forma automática. La forma visual requiere de personal médico capacitado en isocinéticos, y será este personal el que decida en que medida dos series se pueden considerar similares o no. La forma

Page 4: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 4 -

automática realiza la comparación directamente sin necesitar personal capacitado en esta área. Esta comparación automática esta basada en la transformada de Fourier [AFS93]. En esta técnica el experto lo único que hacia era establecer los valores que debían tener los parámetros umbrales que se utilizaban para la comparación. Una vez que el experto regulaba estos valores el sistema de comparación funcionaba de manera automática para la comparación entre series temporales. Esta técnica tenía como objetivo ayudar al experto en la comparación. Sin embargo esta técnica presenta las siguientes carencias:

• El experto se fijaba en ciertas zonas de la secuencia, las cuales no se tenían en cuenta en el algoritmo de comparación. Algunas de las zonas eran “la subida, la curvatura, los picos...” 2.

• La técnica utilizada no capturaba conocimiento del experto en el algoritmo de comparación Basándose en estas dos carencias, las cuales están íntimamente ligadas, el método que se va a

implementar se basa en la traducción de la serie temporal a una serie que contenga información relativa de las zonas o partes que el experto discrimina a priori. Por tanto se incluye información dependiente del dominio en la técnica a utilizar con el objetivo de que el resultado de la comparación se amolde más a la comparativa que el experto realizaría.

En el apartado siguiente se describe de forma más exhaustiva los objetivos que se persiguen con el desarrollo de este método, el cual se describe en la sección 3.

2.3. Objetivos

El objetivo central de este trabajo es el diseño e implementación de un módulo que se pueda utilizar no sólo en I4, sino que pueda ser reutilizado en otras aplicaciones y dominios que tengan como fuente de información datos en el tiempo, el cual traduzca mediante un mecanismo generalista, los datos numéricos a datos simbólicos los cuales estarán relacionados con las partes o zonas que el experto de ese dominio de aplicación considera relevantes para su estudio y análisis. De este modo se dispondrá de símbolos que describen cada zona de la secuencia y que por si solos tienen un carácter semántico ya que son los que el experto utiliza de forma instintiva a la hora de analizar la misma. Por tanto los objetivos principales de esta técnica son los siguientes:

ü Incluir información dependiente del domino en la traducción de la secuencia: Como se

describirá en la sección siguiente, este método esta compuesto por dos partes, una que es dependiente del dominio y otra que no lo es. Incluir información dependiente del dominio en el método de extracción de símbolos posibilita tener un incremento de información relevante para la comparación de dos secuencias temporales dadas. De este modo la comparación se realizaría basándose en las zonas que el experto considera de importancia en el dominio que se esta estudiando.

ü Tener el conocimiento del experto implícito en la composición de la serie: Este objetivo esta

íntimamente ligado al anterior. Lo que se consigue con este objetivo es el hecho de tener conocimiento de vital importancia para que la comparación se aproxime en gran medida a la comparación que realizaría el experto de forma innata. Esto es así porque lo que se estaría comparando realmente son las partes que el experto obtendría después de que él haya realizado un desglose de las zonas que el considera indispensables para poder dar una diagnóstico de lo que esta pasando en la serie temporal y de ese modo poder analizarla.

ü Modularidad y reutilización: El método que se va a diseñar e implementar estará

desarrollado de modo que sea modular con el objetivo de que la reutilización pueda ser realizada no sólo por cualquier módulo de la aplicación I4 sino por cualquier aplicación que desee utilizar este método. Se implementará de forma estructurada con el objetivo de que pueda ser utilizado tanto por el lenguaje de programación orientado a objetos como con un lenguaje de programación estructurado.

2 En la siguiente sección se describe en detalle las zonas o partes en las que el experto divide la secuencia temporal.

Page 5: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 5 -

ü Eficiencia: El mecanismo de extracción de símbolos posibilitará una comparación eficiente

en cuanto al resultado de la comparación ya que se dispondrán de resultados comparativos más próximos a lo que el experto hubiera diagnosticado en la comparación.

Alcanzar los objetivos propuestos posibilita una mejora significativa para la comparación de

series temporales independiente del dominio que se este estudiando. El paso de traducir una serie temporal, independiente del domino que se este utilizando, se impone como un paso previo antes de que se realice la comparación propiamente dicha.

3. Método de Extracción de Símbolos (MES).

Esta sección se divide en dos apartados: primero se detalla los símbolos que se van a utilizar dando lugar al Alfabeto de Símbolos Isocinéticos (ASI), explicando el proceso que se ha seguido para poder obtener esos símbolos y no otros; y después se describe el método que se ha seguido para automatizar la extracción de símbolos, explicando por separado todas las partes en la que esta dividido el proceso.

3.1. Alfabeto de Símbolos Isocinéticos (ASI).

Naturalmente, no tiene mucho sentido empezar a estudiar datos representados en el tiempo si no tenemos conocimiento del dominio que se pretende analizar. Como se ha señalado en apartados posteriores, el dominio en el que se basará esta investigación es el dominio isocinético. Para tener en cuenta el conocimiento experto en el área de isocinéticos se tuvo que planificar diversas entrevistas con el experto en la medida que se iba necesitando para la investigación. Este experto está especializado en el análisis de secuencias temporales isocinéticas de diversas articulaciones, como la rodilla o la cadera. Antes de proceder a la entrevista se prepararon preguntas que centrarían el núcleo de la entrevista; si bien luego se formularían nuevas preguntas a medida que el experto fuese respondiendo. El plan de la primera entrevista era el siguiente:

• Conocer el entorno donde el experto trabaja y las herramientas que utiliza para su análisis diario.

• Saber cuales eran las secuencias temporales más utilizadas y obtener un conjunto de secuencias temporales de su base de datos.

En la primera entrevista el experto comento que una de las secuencias temporales más analizadas era

la que esta basada en la rodilla. El experto utilizaba varias aplicaciones informáticas que le ayudaban al análisis de cada una de las secuencias temporales. Una de esas aplicaciones es la aplicación I4, donde se centrará este trabajo de investigación a la hora de realizar la implementación.

El experto mostró como se utilizaba la máquina isocinéticos realizando ejemplos de ejercicios a diferentes velocidades, teniendo en cuenta que el ejercicio isocinético más fiable e importante era el que estaba realizado a una velocidad de 60 radianes por segundo ya que los ejercicios realizados a una velocidad de 180 o 360 radianes por segundo contenían mucho “ruido” en los datos, haciendo que muchos de los datos numéricos registrados por la máquina estuvieran adulterados a consecuencia de ese ruido.

Como consecuencia de esta primera entrevista se obtuvo una impresión general del campo de isocinéticos y la decisión de utilizar secuencias temporales basadas en la rodilla a una velocidad de 60 radianes por segundo. Sin embargo, se necesitaba conocer más sobre ese tipo de secuencias temporales, como qué partes son las importantes para el experto o qué zonas son las que utiliza él a la hora de dar un diagnóstico. Para poder obtener esa información se tuvo que plantear una segunda entrevista en la que el plan era el siguiente:

• Se imprimió las secuencias temporales más significativas de la base de datos, de tal modo que con este conjunto de secuencias temporales se cubría todos los tipos de secuencias temporales contenidas en la base de datos.

Page 6: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 6 -

• Se le pediría al experto que, basándose en el conjunto de secuencias seleccionadas, nos hiciera saber en que zonas o partes de la secuencia se basaba a la hora de realizar un análisis.

En esta segunda entrevista el experto comunicó que lo primero que tenía en cuenta a la hora de

realizar una análisis, era el hecho de que la secuencia temporal distinguía visualmente entre la extensión y flexión de la rodilla. La máquina de isocinéticos ofrece tres repeticiones de extensión y flexión. En la [Figura 3-1] se muestra una de estas repeticiones donde se visualiza un ejemplo de extensión y flexión. Además, en la secuencia la extensión era más grande que la flexión y generalmente tenían una morfología similar a la que se muestra en la [Figura 3-1]. También hizo saber que independientemente de la zona que estuviera examinando, extensión o flexión, las partes en las que prestaba atención eran las mismas. De este modo, se observó que siempre se fijaba en la subida inicial de la zona, observando el tipo de la pendiente y la duración de la misma. En esa subida tenía en cuenta los picos y hundimientos que se podían encontrar, haciendo la distinción entre grande o pequeño. Llegando a la zona superior de la secuencia el experto hizo hincapié en el tipo de curvatura, describiendo la curvatura por su agudeza, uniformidad o irregularidad. Por último, la zona mostraría una bajada que el experto también examina junto a los hundimientos y picos encontrados en la misma, discriminando entre el tipo de bajada (dependiendo de la pendiente y la amplitud) y los tipos de hundimientos y picos encontrados. Además también era importante tener en cuenta la transición entre zonas.

Basándose en estas dos primeras entrevistas con el experto se pudo empezar a determinar algoritmos y módulos que se podían diseñar para automatizar este proceso. Sin embargo, se continuaba consultando al experto para ir verificando la validez de las investigaciones. Gracias al conocimiento que el experto aportaba, se pudo conformar los símbolos que se iban a utilizar en este trabajo, caracterizando además los tipos de símbolos que se podían obtener. Los símbolos que se han obtenido finalmente son los siguientes:

• Subida.- Correspondiente a la parte de la secuencia que va desde el inicio de la zona hasta la curvatura, pudiendo encontrarse mas de un símbolo desde el inicio de la zona hasta donde empieza la curvatura.

• Bajada.- Correspondiente a la parte de la secuencia que va desde la terminación de la curvatura hasta el final de la zona, pudiendo haber mas de un símbolo subida desde el final de la curvatura hasta el final de la zona.

• Pico.- Correspondiente a una parte prominente y picuda que se puede encontrar en cualquier parte de la secuencia.

• Hundimiento.- Correspondiente a un hundimiento que se puede encontrar en cualquier parte de la secuencia.

• Curvatura.- Correspondiente a la zona superior de una zona, sea flexión o extensión. • Zona de transición.- Correspondiente al paso de una extensión a un flexión o de una flexión a

una extensión, es decir, simboliza el paso de una zona a otra.

Una vez definidos los símbolos hay que tener en cuenta que entre el inicio de una zona y la curvatura podría haber varias subidas separadas por picos o hundimientos. Del mismo modo, del final de la curvatura hasta el final de la zona podría haber multitud de bajadas separadas por picos o hundimientos. También hay que dar especial atención al hecho de que entre el inicio de una zona hasta la curvatura podría encontrarse bajadas (aunque no es lo común) y entre el final de la curvatura y final de la zona podría encontrarse subidas (aunque tampoco es lo común).

Después de estudiar los símbolos que utilizaba el experto, de forma intrínseca, se realizaba una categorización de tipos por cada símbolo. El experto generalmente realizaba una tipología entre grandes y pequeños dando lugar a símbolos con tipos grandes y pequeños. Así cada símbolo puede tener a su vez un subsímbolo que correspondería con la forma del mismo. Por tanto, se debe tener en cuenta la tipología de cada símbolo a la hora de traducción de una secuencia temporal a símbolos. En la [Tabla 3-1] se muestran los símbolos y los tipos que se han determinado para cada símbolo. Este conjunto de símbolos forman un alfabeto que se denomina Alfabeto de Símbolos Isocinéticos (ASI).

En la [Tabla 3-1] se puede apreciar que en el caso de la”curvatura” existen tres tipos, los cuales han sido extraídos directamente de los análisis que el experto hacía cuando examinaba las muestras que se le suministro, y las cuales constituían una muestra significativa de toda la base de datos que tenía el experto en ese momento. El experto nos hacía saber que la curvatura solía ser casi plana o aguda y que en casos

Page 7: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 7 -

atípicos podrían aparecer curvaturas irregulares las cuales solían provenir de un ejercicio mal realizado en la mayoría de los casos. Por tanto el experto diferenciaba claramente entre estos tres tipos de curvatura.

Símbolo Tipos Subida Aguda Suave Bajada Aguda Suave Hundimiento Grande Pequeño Pico Grande Pequeño Curvatura Aguda Meseta Irregular Transición Ninguno

Tabla 3-1. Símbolos del alfabeto ASI

Figura 3-1. Secuencia temporal de isocinéticos

A parte de tener los símbolos con sus tipos, el experto hizo constancia entre la diferencia de los

símbolos en una extensión con respecto a los de la flexión. Por ese motivo, además de cualificar cada símbolo con su tipo, también se tiene que cualificar cada símbolo con la palabra clave Ext si viene de una extensión o Flex si viene de una Flexión. De este modo en todo momento se tiene información consistente de donde proviene un símbolo determinado.

Una vez que se tiene definido el alfabeto de símbolos (ASI) se procede a estudiar como traducir la secuencia formada por números en el tiempo (secuencia temporal (ST)) a una secuencia formada por símbolos (secuencia simbólica (SS)). Así, la secuencia mostrada en la [Figura 3-1] se traduciría a la siguiente secuencia de símbolos: Ext.Subida.Aguda, Ext.Pico.Pequeño, Ext.Hund.Pequeño, Ext.Subida.Aguda, Ext.Curvatura.Aguda, Ext.Bajada.Aguda, Ext.Transicción, Flex.Subida.Aguda, Flex.Curvatura.Aguda, Flex.Bajada.Suave, Flex.Transición.

3.2. Descripción del módulo de extracción de símbolos (MES)

3.2.1. Descripción General

En el apartado anterior se ha definido el alfabeto ASI que se utilizará para poder obtener secuencias simbólicas a partir de las secuencias temporales basadas en números. Para poder realizar esto la aplicación I4 se basa en el método de extracción de símbolos (MES) cuya arquitectura se muestra en forma de diagrama en la [Figura 3-2].

Como se puede ver en la figura, MES esta dividido en dos partes, una primera parte que es independiente del dominio (MID) y por tanto aplicable y reutilizable para cualquier otro dominio; y una segunda parte que es dependiente del dominio (MDD) que estemos tratando, en nuestro caso el dominio isocinético y será la que refleje realmente el conocimiento del experto en cuanto a los símbolos que considere en el análisis de una determinado secuencia.

La aplicación I4 contiene una base de datos de ejercicios isocinéticos realizados por pacientes de toda índole. Un ejercicio determinado, realizado a una velocidad de 60 radianes por segundo, como se ha comentado en un apartado anterior, es el que se utiliza como entrada para el MID según se muestra en la [Figura 3-2]. Sin embargo, es necesario que previamente ese ejercicio pase por una fase de preparación la cual consiste básicamente en pasar todos los valores numéricos de la secuencia a positivos. Esto es debido a que las secuencias temporales que están contenidas en la base de datos están formadas por valores positivos para las extensiones y negativos para las flexiones, cuando realmente los momentos de fuerza son todos positivos y la distinción de signo sólo se hizo para diferenciar entre extensión y flexión. Por ese motivo se pasa toda la serie a valores positivos, para que no dependa del dominio.

El MID esta formado por un submódulo que se encarga de dar como salida un conjunto de características independientes del dominio que básicamente son picos y hundimientos y que realmente corresponderán a símbolos tras algunos filtrados que dependan del dominio.

Page 8: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 8 -

Figura 3-2. Diagrama del Módulo de Extracción de Símbolos (MES).

Las características resultantes del módulo independiente del dominio o características simples y los

datos dependientes del dominio servirán como entrada para el MDD, el cual esta dividido en dos submódulos: el primero se encarga de extraer los símbolos del alfabeto ASI y el segundo se encarga de caracterizar el tipo de cada símbolo. La salida de este último módulo será la secuencia simbólica deseada.

Hay que tener en cuenta que el MDD necesita datos dependientes del dominio para que junto a las características simples obtenidas del MID se puedan obtener símbolos relativos al dominio isocinético. Sin embargo, el hecho de que el MID no este ligado al dominio hace que este pueda ser un módulo reutilizable para otros dominios.

Figura 3-3. MES aplicado a distintos dominios

Por otra lado, gracias a que el MES se estructura en los módulos MID y MDD, se puede generalizar este método para que sea válido en todos los dominios donde se tengan secuencias temporales. De este modo el MID sería el mismo para todos los dominios, reutilizándose para cada uno de ellos, y sólo cambiaría el MDD que será el que contendrá información dependiente del dominio ya que es donde se registra realmente el conocimiento del experto sobre el dominio que se este considerando. Esta generalización del método MES es la que viene representada por la [Figura 3-3].

Obtención de características principales independientes del dominio

Obtención de símbolos dependientes del dominio

Caracterización de símbolos

ejercicio

preparar secuencia

Filtrado unir símbolos repetidos

Secuencia de símbolos

IND DEL DOMINIO

DEP DEL DOMINIO

M E S

Secuencia isocinética Secuencia bursátil Secuencia médica ...

MID

...

Símbolos isocinéticos Símbolos bursátiles Símbolos médicos

...

MDD

(d. bursátil) MDD

(d. médico) MDD

(d. isocinético) ...

Page 9: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 9 -

Después de esta descripción global del método MES se procederá a describir de forma particularizada cada módulo por separado.

3.2.2. Módulo independiente del dominio (MID)

La labor de este módulo consiste en extraer características simples de una secuencia temporal. En concreto, estas características simples corresponderán a picos y hundimientos, los cuales se pueden apreciar en cualquier secuencia temporal independientemente del dominio escogido. Esto es así porque en cualquier secuencia temporal existen partes donde la secuencia sube o baja y el punto donde la secuencia efectúa este cambio de pendiente se cualificará como pico o hundimiento. Así, un hundimiento corresponde al punto donde la secuencia pasa de bajar a subir y pico corresponde al punto donde la secuencia pasa de subir a bajar.

Para realizar esto, este módulo realiza un rastreo secuencial de toda la secuencia recogiendo los picos y hundimientos encontrados. A parte de almacenar el punto donde se ha encontrado el pico o el hundimiento también se almacenan datos relativos a esa característica encontrada. Independientemente de que la característica encontrada sea pico o hundimiento, se almacenan los siguientes datos:

• Punto à Valor del punto donde se culmina el pico o hundimiento. • Pendiente à Valor de la pendiente correspondiente entre el punto del pico o hundimiento

y el punto anterior. • Inicio, Final à Valor de los puntos inicio y final donde se encuentra el pico o

hundimiento (ver [Figura 3-4]). • Duración à Valor que contiene la diferencia entre el punto Final y el punto Inicio. • Amplitud à Valor que mide la altura del pico o la profundidad del hundimiento.

Figura 3-4. Datos asociados a la característica simple “pico”.

En la [Figura 3-4] se visualiza una muestra de una secuencia temporal a gran escala, es decir,

maximizada. En ella se han detallado los datos que se almacenarían en el caso de que la característica encontrada por el MID fuera un pico. Si fuera un hundimiento sería análogo, pero lógicamente teniendo en cuenta que el hundimiento es un punto situado en la parte inferior de dos picos.

Para finalizar la descripción de la funcionalidad del MID se debe hacer hincapié en el hecho de que la

obtención de este módulo consiste en una serie de “símbolos” simples correspondientes a los picos y hundimientos de la secuencia temporal de entrada. Estas características vienen determinadas por el punto donde se localiza la misma y unos datos relativos al entorno donde se sitúa. El objetivo de estos datos es recoger la máxima información posible por cada característica, pero que sea independiente del dominio, para que puede servir de utilidad para el MDD correspondiente. Generalmente un MDD, independientemente del dominio para el que este diseñado, utilizará parte de la información resultante del MDD para su cometido. Aunque podrá haber otros MDD que no necesiten esos datos suministrados por el

pico

pico

pico

hundimiento

hundimiento

punto

hundimiento duracion

ampl

itud

inicio final

Page 10: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 10 -

MID. Sin embargo, lo que no hay que olvidar es que cualquier MDD utilizará el conjunto de características simples resultantes del MID para poder obtener una secuencia simbólica, es decir, una secuencia compuesta por símbolos. Es en el apartado siguiente donde se explica el MDD particularizado para al dominio de isocinéticos que es donde se basa este trabajo de investigación.

3.2.3. Módulo dependiente de dominio (MDD)

El objetivo de este módulo se basa en la obtención de un conjunto de símbolos. Para ello se utilizará la salida del MID (conjunto de picos/hundimientos junto con datos relativos a cada característica) y la secuencia temporal fuente, de donde se obtendrá todos los datos dependientes del dominio donde pertenece esa secuencia, en este caso el dominio isocinético. Se debe tener en cuenta que la secuencia temporal esta formada por números reales que corresponden a los momentos de fuerza de la rodilla con respecto al tiempo. En este apartado se hablará por tanto de momentos o momentos de fuerza.

Este MDD esta formado por dos submódulos, el primero de ellos es el encargado de obtener el conjunto de símbolos y el segundo es el encargado de caracterizar cada símbolo. Por tanto este apartado se dividirá en dos epígrafes, uno para cada submódulo. Símbolos dependientes del dominio

Los símbolos que se desean obtener son los que se han presentado en el apartado 3.1 Alfabeto de

Símbolos Isocinéticos (ASI). Para la obtención del pico o del hundimiento se podría utilizar los picos/hudimientos suministrados por el MID. Sin embargo esto no es posible ya que si fuera así se tomarían como símbolos de pico/hundimiento todos los picos y hundimientos de la secuencia temporal, por insignificantes que fueran. El experto sólo tenía en cuenta algunos picos o hundimientos para su análisis descartando aquellos picos/hundimientos que no se podían considerar como tal. Por tanto es necesario filtrar los picos/hundimientos suministrados por el MID mediante una regla que evalué que pico o hundimiento es considerado como símbolo o no. En este caso sólo se considerarán picos o hundimientos si cumplen la siguiente relación que se muestra en la [Expresión 3-1]:

umbralduraciónamplitud

Expresión 3-1. Relación entre la amplitud y la duración para un pico o hundimiento.

De este modo todos aquellos picos o hundimientos que cumplan esa relación podrán se considerados verdaderos símbolos picos o símbolos hundimientos. El valor del umbral se ha obtenido mediante el testeo de todas las secuencias que se encontraban en la base de datos del experto. Este valor es de 40.

Figura 3-5. Ejemplos de “bajadas” y “subidas”. En el ejemplo (a) el trazo grueso no corresponde

con una bajada pero en el ejemplo (b) si. En el ejemplo (c) el trazo grueso no corresponde con una

subida pero en el ejemplo (d) si.

En el caso de la obtención del símbolo subida o bajada ocurre una situación similar a la que se tuvo para obtener los símbolos de pico y hundimiento. En una primera pasada se podría considerar que subida es la parte que se encuentra entre un hundimiento y un pico, y bajada la parte que se encuentra entre un pico y un hundimiento. Sin embargo, el experto no lo consideraba así. En la [Figura 3-5] se visualizan con un trazo más grueso dos ejemplos de símbolos que se podrían considerar bajadas y dos ejemplos de símbolos que se podrían considerar subidas. En el caso de las bajadas, en el ejemplo (a) el experto

(a) (b) (c) (d)

Page 11: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 11 -

consideraría que existe una subida, después un pico continuado con un hundimiento y una subida; sin embargo, el ejemplo (b) el experto lo traduciría a subida, pico, después una bajada continuada por un hundimiento y una subida. Es decir en el ejemplo (a) el trazo más grueso no es considerado como una bajada pero en el ejemplo (b) si. De forma análoga ocurriría con los ejemplos (c) y (d). En el ejemplo (c) el trazo grueso no se consideraría como subida pero en el (d) si.

Por tanto sólo se considerarían subidas o bajadas si cumplen la siguiente expresión:

))_()_((

))_()_((

amplumbralamplitudandpendumbralPendienteor

durumbralduracionandpendumbralPendiente

>=>=

>=>=

Expresión 3-2. Relación entre pendiente, duración y amplitud para una subida o una bajada

En la [Tabla 3-2] se muestran los parámetros umbrales junto con los valores utilizados para la

[Expresión 3-2].

Umbral_pend. = 1.1 Umbral_dur. = 0.04 Umbral_Ampl. = 24

Tabla 3-2. Umbrales utilizados para

determinar los símbolos subida y bajada.

Para la obtención de la curvatura lo que se debía hacer era localizar la parte de la curvatura para

poder situarla entre un punto inicial y final de cada zona, independientemente de que la zona sea extensión o flexión. Esto se consiguió mediante el testeo de las secuencias contenidas en la base de datos. Así se estimo que la curvatura de cualquier zona, sea flexión o extensión, estaba alrededor de un 20 % de la parte superior de cada zona. En la [Figura 3-6] se puede apreciar un ejemplo de la localización de la curvatura.

Figura 3-6. Localización de la curvatura.

Para la obtención del símbolo transición, el MDD se basa en el paso de una extensión a una flexión o

viceversa para introducir este símbolo. Tipo de símbolos

Antes de pasar a este submódulo, el conjunto de símbolos obtenidos por el submódulo anterior pasaría por una etapa de filtrado (ver [Figura 3-2]) donde se chequea el conjunto de símbolos con el fin de cumplir el siguiente objetivo:

ü Asegurarse de que no aparecen símbolos repetidos. Por ejemplo, en el caso de que se tuviera dos símbolos de subida consecutivos, se cambiaría por un solo símbolo subida que englobaría a los dos.

El cometido de este submódulo es cualificar cada símbolo con un tipo asociado. De esta manera se tendrá información más precisa de la secuencia temporal fuente. Además no hay que olvidar que el experto utiliza una tipología de símbolos de forma instintiva basándose en su experiencia. Así el experto diferenciará entre formas de picos, formas de subida e incluso formas de curvatura. Esta categorización de formas se mostró en la [Tabla 3-1].

20 % Curvatura

Page 12: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 12 -

En el caso de los símbolos pico y hundimiento, las formas asociadas son grande y pequeño, de tal modo que se puede tener: pico pequeño, pico grande, hundimiento pequeño y hundimiento grande. Para clasificar entre pequeño y grande este módulo se basa en la amplitud. Por tanto la regla que se sigue es la que se representa en la [Expresión 3-3]:

grandecasootroenpequeñoumbralamplitudamplitudSi

⇒⇒≤

___

Expresión 3-3. Regla para la determinación de las formas para los

símbolos pico y hundimiento.

donde amplitud corresponde con la amplitud del pico o hundimiento y la amplitud_umbral es un valor constante el cual se ha determinado mediante el testeo de las secuencias temporales que están contenidas en la base de datos que el experto maneja. El valor que se obtuvo fue 20.

La clasificación de formas para los símbolos subida y bajada es suave y aguda, de tal modo que se pueden encontrar: subida suave, subida aguda, bajada suave y bajada aguda. Este MDD se basa en la amplitud del símbolo subida o bajada para la categorización de sus formas. La regla que rige estos tipos se muestra en la [Expresión 3-4]:

agudacasootroensuaveumbralamplitudamplitudSi

⇒⇒≤

___

Expresión 3-4. Regla para la determinación de las formas para los

símbolos subida y bajada.

donde amplitud corresponde con la amplitud de la subida o bajada y la amplitud_umbral es un valor constante que se ha obtenido mediante el testeo de las secuencias temporales que el experto tiene en su base de datos. El valor que se obtuvo para este umbral fue 45.

En el caso del símbolo curvatura la tipología que se adopto fue: irregular, aguda y meseta. Para la determinación de estas formas, el MDD se basa en las siguientes ideas:

• Número de picos existentes, con una amplitud determinada, en la zona de curvatura. • El cálculo de la desviación típica y el coeficiente de variación con respecto a los

momentos de fuerza en la zona de curvatura. Para el cálculo de la desviación típica y del coeficiente de variación se utilizan las ecuaciones que vienen representadas en la [Tabla 3-5].

Las reglas que se han obtenido para la clasificación de las formas de curvatura utilizan las

condiciones que se muestran en la [Tabla 3-3]:

Condición1: (Si num_picos ≥ umbral_num_picos or num_hunds>=umbral_num_hunds)3 Condición2: (Si num_picos=1 or Ampl./Dur (zona_curvatura) ≥ umbral_zona_aguda)4 Condición3: Si σ ≤ umbral_desv or CV ≤ umbral_CV

Tabla 3-3. Condiciones que se utilizan como antecedentes de las reglas para la determinación de

las formas de curvatura.

Utilizando las condiciones de la tabla anterior se obtienen las reglas que se presentan en la [Tabla 3-4]:

Regla1: Si condicion1 à curvatura irregular Regla2: Si no se cumple la Regla1 y condición2 à curvatura aguda Regla3: Si no se cumple la Regla2 y condición3 à curvatura meseta Regla4: Si no se cumple la Regla3 à curvatura aguda

Tabla 3-4. Reglas para la obtención de las formas de curvaturas.

3 Se cuentan los picos y hundimientos que cumplan la relación amplitud/duración ≥ umbral_irregular. 4 Se cuentan los picos que cumplan la relación amplitud/duración ≥ umbral_aguda

Page 13: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 13 -

)(xVar=σ

Expresión 3-5. Cálculo de la desviación típica.

Donde

12)( aaxVar −=

Expresión 3-6. Cálculo de la varianza.

nxx

a n22

12

... ++=

Expresión 3-7. Cálculo del momento de orden 2.

nxxa n++

=...1

1

Expresión 3-8. Cálculo del momento de orden 1 .

|| xCV σ=

Expresión 3-9. Cálculo del coeficiente de

variación.

nxxx n++

=...1

Expresión 3-10. Cálculo de la media.

Tabla 3-5. Ecuaciones utilizadas para la determinación de las formas curvatura.

Observar que la primera regla discrimina a las siguientes al igual que la segunda discrimina a la

tercera y cuarta regla, y la tercera regla discrimina a la cuarta. De las formas irregular, aguda y meseta, se empieza a discriminar por el símbolo irregular de tal modo que se considera que una curvatura irregular es aquella que tiene mas de dos picos o dos hundimientos con una relación de amplitud/duración mayor que una constante denominada umbral_irregular. También se considerará irregular si se encuentra un hundimiento y un pico con una relación de amplitud/duración mayor que umbral_irregular. En el caso que se determinará que la curvatura es irregular, no se continuaría evaluando las siguientes reglas. Pero si no se determina que la curvatura es irregular entonces se pasaría a la segunda regla para determinar si la curvatura puede ser considerada como aguda. En ese caso, si se observa que existe un solo pico con una relación amplitud/duración mayor que una constante denominada umbral_aguda o si toda la zona de curvatura tiene una relación amplitud/duración mayor que umbral_zona_aguda entonces la curvatura será aguda.

Si no se cumplen ni la Regla1 ni la Regla2 entonces se evalúa la Regla3 con el fin de saber si la curvatura fuese la forma meseta. Para ello se utiliza la desviación típica de los momentos de la zona de curvatura y el coeficiente de variación. El objetivo es determinar si la variación de los momentos en la zona de curvatura es mínima con respecto a los umbrales umbral_desv y umbral_CV, en ese caso se clasifica la curvatura con la forma meseta. Si la variación no fuese mínima entonces la curvatura se clasificará como aguda.

Todos los umbrales utilizados para la clasificación de las formas de curvatura se visualizan en la [Tabla 3-6], los cuales se han obtenido después de un intensivo testeo con las secuencias que el experto guardaba en su base de datos.

Umbral_num_picos=2 Umbral_num_hunds=3 Umbral_irregular= 24 Umbral_zona_aguda= 32 Umbral_aguda= 44 Umbral_desv= 0.066 Umbral_CV=5.7

Tabla 3-6. Umbrales utilizados

para las formas de curvatura.

Page 14: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 14 -

Por último estaría el símbolo transición el cual no tiene ninguna categorización de formas (ver [Tabla 3-1]).

Todos los parámetros umbrales presentados en este epígrafe y el anterior son los que se han usado en las pruebas finales, después de muchos ajustes pudiéndose cambiar fácilmente en su implementación.

4. Resultados

Se ha diseñado una interfaz gráfica para poder mostrar el resultado del método MES descrito en la anterior sección. Por tanto el objetivo de esta sección es la descripción de esta interfaz de usuario detallando cada parte de la que esta compuesta. Seguidamente se presentará una serie de ejemplos donde se puede apreciar la traducción a símbolos que realiza el MES y como a partir de estos símbolos se puede llegar a reconstruir la secuencia temporal. Por último se presenta el resultado de la aplicación del MES a secuencias temporales pertenecientes a otras áreas o dominios de aplicación, teniendo en cuenta que el MDD del MES desarrollado en este trabajo de investigación es propio del dominio de isocinéticos.

Figura 4-1. Interfaz de la Representación Simbólica.

4.1. Interfaz de usuario

Después de seleccionar un ejercicio isocinético desde la interfaz de la base de datos de la aplicación I4 se puede ejecutar el módulo de la interfaz que presenta la representación simbólica. Esta interfaz se presenta en la [Figura 4-1].

Page 15: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 15 -

Una vez presentado el diseño de la interfaz gráfica de la representación simbólica se pasará a explicar las partes por las que esta compuesto esta interfaz. En la parte superior de la interfaz se visualiza la secuencia temporal fuente que corresponde con el ejercicio que previamente el usuario de la aplicación habría seleccionado. Como se puede apreciar, la secuencia temporal esta compuesta de tres repeticiones cada una de las cuales corresponde con una extensión y flexión de la rodilla. Es una secuencia temporal isocinética como se ha presentado en la [Figura 3-1].

Figura 4-2. Presentación de las características del MID.

Figura 4-3. Presentación de la obtención de los símbolos dependientes del dominio.

La siguiente parte en la que se divide esta interfaz gráfica es la parte central en la cual se muestra la

traducción de la secuencia temporal a símbolos, pasando por todas las fases del MES. La primera fase del método MES sería la obtención de las características independientes del domino como se mostró en [Figura 3-2] y es la que se muestra en el primer listado de datos que aparece en la parte izquierda, debajo del título “SÍMBOLOS INDEP. DOM”. En la [Figura 4-2] se ha realizado una ampliación de esta primera fase, en la cual se puede ver la lista de características, picos y hundimientos con el siguiente formato: <característica>.Pend:<valor_pendiente> Ini: <valor_inicial> Fin: <valor_final> Ampl.: <valor_amplitud> Dur: <valor_duración> <valor_del_punto> donde

<característica>: Puede tomar el valor “P” o “H” dependiendo de si se ha encontrado un pico o un hundimiento respectivamente. <valor_pendiente>: el valor de la pendiente de la <característica> que corresponde con la pendiente representada en la [Figura 3-4]. <valor_inicial>: el valor del punto inicial de la <característica> que corresponde con el inicio representado en la [Figura 3-4].

Page 16: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 16 -

<valor_final>: el valor del punto final de la <característica> que corresponde con el fin representado en la [Figura 3-4]. <valor_amplitud>: el valor de la amplitud de la <característica> que corresponde con la amplitud representada en la [Figura 3-4]. <valor_duración>: el valor de la duración de la <característica> que corresponde con la duración representada en la [Figura 3-4]. <valor_del_punto>: el valor del punto donde se sitúa la <característica> en la secuencia temporal fuente.

Así por ejemplo el valor seleccionado en la [Figura 4-2] correspondería con:

H. Pend: -1.71 Ini: 74 Fin: 78 Ampl:4 Dur: 0,08

Además se visualiza la característica seleccionada en la lista mediante una línea vertical como se puede ver en la [Figura 4-2].

La siguiente fase del método es la obtención de símbolos dependientes del dominio [Figura 3-2] y es la que se muestra en el listado central, debajo del título SÍMBOLOS DEPEN. DOM. En la [Figura 4-3] se ha realizado una ampliación de esta siguiente fase del método. Debajo del título PARÁMETROS FILTRADO se presentan los parámetros umbrales que se utilizan para poder obtener los símbolos presentados en el listado. Estos parámetros son los siguientes:

• Porcentaje: que corresponde con el valor porcentual que se toma de la secuencia temporal como zona de curvatura. En la [Figura 3-6] (apartado 3.2.3 Módulo dependiente de dominio (MDD)) se explicaba con exactitud el significado de este parámetro. El valor que se ha tomado ha sido 20%. Además el usuario puede presionar en el botón “Pintar Zona Curvatura” para visualizar mediante una línea horizontal a la gráfica la parte de la secuencia que corresponde con la curvatura. En la [Figura 3-6] se puede apreciar la zona de curvatura marcada.

• Amplitud/duración: es el valor que representa el umbral que debe cumplir una característica, ya sea pico o hundimiento, para que sea considerada como tal. En la [Expresión 3-1] se mostró la ecuación junto con el significado de la misma. El valor que se ha tomado para este umbral ha sido 40.

• Pendiente, duración, amplitud: Los valores que toman estos parámetros corresponden con los umbrales umbral_pend, umbral_dur y umbra_ampl en la [Expresión 3-2]. En esa expresión se define la regla que debe cumplir una subida o bajada para que sea considerada como tal.

En el listado se visualizan el conjunto de símbolos que representan la secuencia temporal. En el

ejemplo mostrado en la [Figura 4-3] se presenta una lista de símbolos en la cual se ha seleccionado uno de ellos que corresponde a “Ext.CURVATURA”. Como se puede ver, la selección que se ha hecho en el listado se marca en la secuencia gráfica.

La última fase del método MES se representa en el listado debajo del título “SÍMBOLOS-TIPOS

DEPEND-DOM” que corresponde con la caracterización de tipos representada en la [Figura 3-2]. En la [Figura 4-4] se presenta de forma ampliada la parte de la interfaz de usuario que corresponde con esta última fase del método. Para poder obtener los símbolos juntos con los tipos asociados a cada uno de ellos se necesita definir una sería de parámetros umbrales que son los que se presentan debajo del título “PARÁMETROS TIPOLOGIA”. Estos son:

• Parámetros para determinar el Tipo curvatura: o Umbral num picos: Corresponde con el número de picos mínimo que se debe tener para

considerar la curvatura irregular. En la condición 1 de la [Tabla 3-3] este valor seria 2. o Umbral num hund: Corresponde con el número de hundimientos mínimo que se debe

tener para considerar la curvatura irregular. En la condición 1 de la [Tabla 3-3] este valor seria 3.

o Amplitud/duración (irreg): Corresponde con el umbral_irregular que se describió en la nota de página (3) en la [Tabla 3-3]. Es el umbral amplitud/duración para que un pico o hundimiento se considere pico o hundimiento para la condición 1 que se presenta en esa tabla.

Page 17: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 17 -

o Amp/Dur (zona curv): Corresponde con el umbral_zona_aguda que se presenta en la [Tabla 3-3].

o Amp/Dur (aguda): Corresponde con el umbral_aguda que se describió en la nota de página (4) en la [Tabla 3-3]. Es el umbral amplitud/duración para que un pico se considere como tal para la condición 2 que se presenta en esa tabla.

o Coef. Variación: Corresponde con el umbral_CV de la [Tabla 3-3]. o Desv. Tipica: Corresponde con el umbral_desv de la [Tabla 3-3].

Figura 4-4. Presentación de la caracterización de símbolos.

Figura 4-5. Reconstrucción de la secuencia a partir de los símbolos

• Parámetros para determinar el Tipo pico/hund:

o Ampl. Tipo (grande, peq): Corresponde con la amplitud_umbral de la [Expresión 3-3]. • Parámetros para determinar el Tipo subida/bajada:

o Ampl. Tipo (grande, peq): Corresponde con la amplitud_umbral de la [Expresión 3-4].

Lo último que se presenta en la interfaz gráfica de usuario es la gráfica reconstruida a partir de los símbolos obtenidos. En la [Figura 4-1] se visualiza la secuencia temporal original en la parte superior y la reconstruida en la parte inferior. En la [Figura 4-5] se presenta de forma ampliada la primera repetición de la secuencia temporal.

4.2. Muestra de ejemplos

En este apartado sólo se va a visualizar algunos ejemplos que se ha seleccionado al azar de la base de datos. Estos ejemplos se representan en las figuras siguientes:

Page 18: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 18 -

Figura 4-6. Ejemplo 1 de traducción simbólica.

Figura 4-7. Ejemplo 2 de traducción simbólica.

Page 19: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 19 -

4.3. Tests con secuencias de otros dominios de aplicación

En este apartado se muestra el resultado del método MES cuando se utilizan secuencias temporales pertenecientes a otros dominios de aplicación. Hay que tener en cuenta que el método MES se subdivide en dos módulos, uno independiente del dominio (MID) y otro dependiente del dominio (MDD). El MDD que se ha implementado depende del dominio isocinético. Por tanto los resultados del MES implementado aplicado a otros dominios son dependientes del dominio isocinético como se verá en los siguientes apartados.

Las secuencias temporales de otros dominios que se han utilizado se han tenido que introducir en la base de datos de la aplicación I4 para que el MES implementado pueda ser aplicado a ellas. Esto ha hecho que se tengan que introducir una cantidad muy pequeña de valores negativos al final de cada secuencia temporal para simular una flexión. Esta inclusión de valores “basura” ha sido necesaria porque la aplicación I4 no deja introducir secuencias temporales que no tengan al menos una extensión y una flexión. Por tanto hay que tener en cuenta que las secuencias temporales introducidas corresponderán con la traducción a símbolos correspondiente a la primera extensión.

4.3.1. Valores bursátiles mensuales de la empresa Sun Microsystems de 1998 al 2001. En la [Figura 4-8] se presentan valores bursátiles de la empresa Sun Microsystems correspondientes al intervalo de tiempo que va desde el año 1998 al año 2001. Una vez aplicado el MES se obtiene lo que se presenta en la [Figura 4-9]. En este figura se ha representado la zona de la curvatura (concepto que depende del dominio isocinético) mediante una línea horizontal. También se puede observar que el resultado del MID es completamente reutilizable ya que no es dependiente del dominio isocinético.

010203040506070

abr-9

6oc

t-96

abr-9

7oc

t-97

abr-9

8oc

t-98

abr-9

9oc

t-99

abr-0

0oc

t-00

abr-0

1

Figura 4-8. Valores bursátiles mensuales de la empresa Sun Microsystems (1998-2001).

4.3.2. Tiempo de respuesta del aplicativo iPlanet Directory Server (iDS)

El aplicativo iPlanet Directory Server (iDS) es un producto de la empresa Sun Microsystems. Este producto esta compuesto por una base de datos donde se almacenan todos los usuarios de una determinada empresa. Este producto se utiliza para la autentificación de usuarios tanto a nivel del sistema operativo (Native-ldap) como para autentificación de aplicativos como servidores web, servidores de correo, etc... Además también se puede utilizar para poder almacenar información relativa a cada usuario. Simplificando, se podría decir que el iDS es una base de datos a la que diferentes aplicaciones lanzan preguntas.

En este apartado se presenta los tiempos de repuesta del iDS a las queries realizadas en un intervalo de tiempo [Figura 4-10].

Page 20: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 20 -

Figura 4-9. Resultado del método MES al aplicarlo a la secuencia temporal de la [Figura 4-8].

Figura 4-10. Secuencia temporal que representa los tiempos de respuesta del iDS.

En la [Figura 4-12] se presenta el resultado del MES. En este caso la reconstrucción de la secuencia

temporal es muy similar, sin embargo, se puede ver como la determinación de la curvatura (implementada en el MDD) ha provocado que el pico con mayor amplitud de la secuencia temporal original sea reconstruido en un pico correspondiente a la curvatura propia de un dominio isocinético

020406080

100120140160180

8:27:25

8:27:30

8:27:33

8:27:3

5

8:27:4

0

8:27:4

4

8:27:46

8:27:49

8:27:5

2

8:27:5

9

8:28:02

8:28:03

8:28:05

8:28:0

7

8:28:1

1

Page 21: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 21 -

Figura 4-11. Resultado del método MES al aplicarlo a la secuencia temporal de la [Figura 4-10]

4.3.3. Señales de electrocardiogramas.

En este caso se ha utilizado el dominio médico particularizando en señales de electrocardiogramas. Una típica señal de electrocardiograma es la que se muestra en la [Figura 4-12] en la cual se pueden visualizar tres pulsaciones del corazón.

-1,5-1

-0,50

0,51

1,52

2,53

3,5

0 0,5 1 1,5 2

Figura 4-12. Secuencia temporal que representa un electrocardiograma de tres pulsaciones.

Page 22: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 22 -

Figura 4-13. Resultado del método MES al aplicarlo a una sola pulsación de la secuencia temporal de la figura [Figura 4-12].

De las tres pulsaciones que se presentan en la figura anterior sólo se ha incluido en la base de datos

de la aplicación I4 los valores relativos a una sola pulsación. Además se ha desplazado la secuencia temporal para que se encuadre dentro de los valores positivos donde se representa la misma. Este desplazamiento se ha realizado con el objetivo de eliminar el hecho de que el MES tome todos los valores negativos como una extensión. En la [Figura 4-13] se puede apreciar la secuencia temporal reconstruida después de la aplicación del método MES cuya similaridad es muy cercana a la secuencia temporal original.

En este apartado se ha mostrado el funcionamiento del método MES presentando ejemplos característicos del dominio isocinético y ejemplos pertenecientes a otros dominios. Como se ha podido apreciar, en el resultado del método MES existe una fuerte influencia del MDD ya que se determinan zonas o fragmentos que en otro dominio de aplicación puede no tener sentido. Sin embargo el MID es completamente reutilizable para cualquier dominio de aplicación, solamente haría falta tener un MDD propio para cada dominio para que el resultado del MES sea el esperado.

5. Conclusiones y líneas futuras

En este trabajo se ha diseñado e implementado el método MES que se ha incluido en la aplicación I4, viendo la utilidad que se tiene con un método que permite obtener símbolos con el contenido semántico dado por el experto. Este contenido semántico ofrece la posibilidad de poder realizar una comparación entre secuencias temporales cercana a lo que la experiencia del experto haría. Usando la metodología estructurada, se ha diseñado un sistema fácilmente modificable y reutilizable por otros módulos de la

Page 23: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 23 -

aplicación I4 de cara a posibles mejoras futuras. Además la línea de desarrollo que se ha seguido permite que este método pueda ser implementado en otros dominios de aplicación.

La gran cantidad de técnicas de data mining y técnicas de comparación que se han estudiado han aportado un conocimiento que ha ayudado a tomar la decisión de que técnica sería la más adecuada para el método MES. Al final se ha seleccionado un mecanismo de traducción propio, sin bien la investigación referenciada en [APWZ95] la cual presenta un lenguaje de definición de formas llamado SDL (Shape Definition Language) ha tenido una influencia en este trabajo de investigación.

El sistema ofrece la posibilidad de obtener la traducción a símbolos de una serie temporal y poder regular esa traducción en base a los parámetros umbrales presentados en los anteriores epígrafes. Además también permite visualizar la secuencia temporal reconstruida a partir de los símbolos que se han obtenido de la traducción. Hay que tener en cuenta que los parámetros umbrales que se han presentado en este trabajo de investigación han sido fijados por el experto en el área de isocinéticos y podrían ser modificados dependiendo de la secuencia temporal a estudiar y siempre por una persona experta en el dominio de aplicación de la misma.

En el presente trabajo se ha estudiado el grado de reutilización del MID y del MDD con otras

secuencias temporales que no pertenecían al área de isocinéticos. Esto a permitido saber que el MID siempre puede ser reutilizado para cualquier secuencia temporal independiente del dominio de aplicación mientras que el MDD, al depender del dominio, tiene un grado de reutilización menor y se debería rediseñar para la secuencia temporal a estudiar (como se ha presentado en [Figura 3-3]). Si bien se podría reutilizar para secuencias temporales cuyos símbolos sean válidos en el dominio de aplicación de dicha secuencia. En última instancia debe ser el experto la persona que decida si el MDD puede ser válido para las secuencias temporales a estudiar o no. En este caso el experto en el área de isocinéticos ha evaluado en todo momento la bondad y calidad de este método ajustando los parámetros umbrales que han hecho posible que la secuencia reconstruida, resultante del MES, sea muy similar a la original. Esto ha posibilitado que el experto considere óptimo tener una serie de símbolos cualitativos que serán utilizados para el diagnóstico y comparación con otras secuencias simbólicas del mismo dominio.

Con este sistema se ha dotado a la aplicación I4 de un módulo que hace que en lugar de tener un conjunto de datos numéricos en el tiempo se tenga un conjunto de símbolos que representan a una secuencia temporal. De este modo, en lugar de tener una base de datos de secuencias temporales formadas por un conjunto de números, se tendría un conjunto se secuencias temporales formadas por un conjunto se símbolos, donde no hay que olvidar que cada símbolo tiene su propio contenido semántico.

El tener una base de datos de secuencias simbólicas, resultante del método MES, permite promover

el estudio de qué técnica de comparación sería la más adecuada para la comparación de secuencias temporales simbólicas. El uso de utilizar una estructura de indexación y qué estructura de indexación a utilizar forman parte de la técnica de comparación que se debe elegir para el estudio de la similaridad entre series. Por tanto, el método MES deja el campo de investigación abierto en cuanto cómo y qué se debe utilizar para poder comparar secuencias temporales simbólicas, teniendo que pensar en una técnica modular y reutilizable para otro tipo de secuencias temporales. En el caso del campo de isocinéticos se podría tener ejercicios de otras zonas del cuerpo humano, como son muñecas, codo, etc... dando lugar a diferentes secuencias temporales. Referencias [Gutt99] A. Guttman. R-trees: A dynamic index structure for spatial searching. 1984. [KS99] Kaushik Chakrabarti and Sharad Mehrotra. The hybrid tree: And index structure for high

dimensional feature spaces. In ICDE, pages 440-447, 1999. [FJMM95] C. Faloutsos, H. V. Jagadish, A. O. Mendelzon and T. Milo. A signature technique for

similarity-based queries. Technical report 112530-951110-16TM, AT&T, Murray Hill, NJ, November 1995.

Page 24: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 24 -

[JAG91] H. V. Jagadish. A retrieval technique for similar shapes. In ACM SIGMO Symp. on the Management Of Data, pages 208-217, 1991.

[JAG95] H. V. Jagadish, Alberto O. Mendelzon, and Tova Milo. Similarity-based queries. Pages

36-45, 1995. [HP97] Heikki Mannila and Pirjo Ronkainen. Similarity of event sequences. In TIME, pages 136-

139, 1997. [SK99] David Sankoff and Joseph Kruskal, editors, Time Warps, Strings Edits, and

Macromolecules:The Theory and Practice of Sequence Comparison.. CSLI Publications, reissue edition, 1999.

[CLR93] Thomas H. Cormen, Charles E. Leiserson, and Ronald L. Rivest. Introduction to

Algotihms. The MIT Press, 1993. [AFS93] Rakesh Agrawal, Christos Faloutsos, and Artun N. Swami. Efficient Similarity Search In

Sequence Databases. In D. Lomet, editor, Proceedings of the 4th International Conference of Foundations of Data Organization and Algorithms (FODO), pages 69-84, Chicago, Illinois, 1993. Springer Verlag.

[CW99] K. K. W. Chu and M. H. Wong. Fast time-series searching with scaling and shifting. In

PODS, 1999.

[CF99] Kin pong Chan and Ada Wai-Chee Fu. Efficient time series matching by wavelets. In ICDE, pages 126-133, 1999.

[SZ96] H. Shatkay and S. B. Zdonik. Approximate queries and representations for large data

sequences. In ICDE, 1996. [BC96] D. J. Berndt and J. Clifford. Finding patterns in time series: A dynamic programming

approach. In Advances in Knowledge Discovery and Data Mining, pages 229-248. MIT Press, 1996.

[CS98] K. Cheng abd M. Spetch. Mechanisms of landmark use in mammals and birds. In S.

Healy, editor, Spatial Representation in Animals. Oxford University Press, 1998. [HK01] Frank Höppner and F. Klawonn. Finding informative rules in interval sequences. In Proc.

Of the 4th Int. Simp. On Intelligence Data Analysis, Lissabon, Portugal, Sept 2001. Springer

[BS95] B. R. Bakshi and G. Stephanopoulos. Reasoning in time: Modeling, analysis, and pattern

recognition of temporal process trends. In Advances in Chemical Engineering, colume 22, pages 485-548. Academic Press, Inc., 1995.

[SC90] Sakoe, H., and Chiba, S. 1990. Dynamic Programming Algorithm Optimization for

Spoken Word Recognition. In Reading in Speech Recognition, eds. Waibel, A. and Lee, K., 159-165. San Mateo, California: Morgan Kauffmann Publishers, Inc.

[WEH98] L. Wehenkel. Automatic learning techniques in power systems. Kluwer Academic,

Boston, 1998. [FRM94] C. Faloutsos, M. Ranganathan, and Y. Manolopoulos. Fast subsequence matching in time

series databases. In Intl. Conf. On Management of Data – SIGMOD 94, pages 419-429, Minneapolis, May 1994.

Page 25: Traducción de series temporales continuas a simbólicas · - 3 - 2. Definición del problema 2.1. Contexto Existen multitud de base de datos que almacenan información temporal,

- 25 -

[KCP00] Eamonn J. Keogh, K. Chakrabarti, and M. Pazzani. Dimensionality reduction for fast

similarity search in large time series databases, 2000. [KP00] Eamonn J. Keogh and Michael J. Pazzani. A simple dimensionality reduction technique

for fast similarity search in large time series databases. In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages 122-133, 2000.

[KCMP01] Eaminn J. Keogh, Kaushik Chakrabarti, Sahrad Mehrotra, and Michael J. Pazzani.

Locally adaptative dimensinality reduction for indexind large time series databases. In SIGMOD Record, 2001.

[RM99] Davood Rafiei and Alberto Mendelzon. On similarity-based queries for time series data.

Pages 13-25, 1999. [KF00] Byoung-Kee Yi y Christos Faloutsos. Fast time suquence indexing for arbitrary Lp norm.

In The VLDB Journal, pages 385-394, 2000. [KP95] Eamonn J. Keogh and Padhraic smyth. A propabilistic approach to fast pattern matching

in time series databases. Page 24. 1995. [KEO97] Eamonn J. Keogh. A fast and robust method for pattern matching in time series databases,

1997. [PWZP00] Chang-Shing Perng, Haixun Wang, Sylvia R. Zhang, and D. Stott Parker. Landmarks: a

new model for similarity-based pattern querying in time series databases. In ICDE, pages 33-42, 2000

[PC01] Sang-Wook Kim, Sanghyun Park, and Wesley W. Chu. An index-based approach for

similarity search supporting time warping in large sequence databases. In ICDE, 2001. [WP99] H. Wang and C.-S. Perng. The S2-tree: An index structure for subsequence matching of

spatial objects. Technical Report 990050, University of Californica, Los Angeles, Computer Science Department, 1999.

[APWZ95] R. Agrawal, G. Psaila, E. L. Wimmers, and M. Zaït. Querying shapes of histories. IBM

Research Report RJ 9962 (87921), IBM Almaden Research Center, San Jose, California, June 1995.

[ALSS95] Rakesh Agrawal, King-Ip Lin, Harpreet S. Sawhney, Kyuseok Shim: Fast Similarity

Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases. VLDB 1995: 490-501.

[TCGJS93] Tansel, A. Clifford, J., Gadia, S., Segev, A., and Snodgrass, R. 1993. Temporal

Databases: Theory, Design, and Implementation. Redewood City, California: Benjamin/Cummings Publishing Company.

[CC87] Clifford, J., and Croker, A. 1987. The Historical Relational Data Model (HRDM) and

Algebra Based on Lifespans. In Proceedings of the International Conference on Data Engineering, 528-537, Los Angeles, California: IEEE Computer Society Press.

[CCT94] Clifford, J., Croker, A., and Tuzhilin, A. 1994. On Completeness of Historical Relational

Data Models. ACM Transactions on Database Systems.