Download - Modelos simb olicos para el an alisis de im agenes biom edicas · CENTRO DE INVESTIGACION EN MATEM ATICAS, A.C. Modelos simb olicos para el an alisis de im agenes biom edicas por

CENTRO DE INVESTIGACION EN MATEMATICAS, A.C.

Modelos simbolicos para el analisis de

imagenes biomedicas

por

Yerania Campos Silvestre

Tesis que para obtener el grado de

Maestra en Ciencias con Especialidad en Computacion y Matematicas Industriales

Director de Tesis

Salvador Ruiz Correa, PhD

Departamento de Ciencias de la Computacion

30 de enero del 2009. Guanajuato,Gto.

University Web Site URL Here (include http://)

Faculty Web Site URL Here (include http://)

Department or School Web Site URL Here (include http://)

Dedico este trabajo a mi familia. Gracias por su amor, confianza ycompresion.

i

“Imagination is more important than knowledge.”

A. Einstein

Agradecimientos

A mis padres, Ramon y Catalina les agradezco su apoyo incondicional en cada etapa de mi vida.

A mis hermanos Ariel y Dalila que son una parte esencial. Siempre los llevo en mi corazon.

Deseo agradecer a mi asesor el Dr. Salvador Ruiz Correa por su tiempo y apoyo en la realizacion

de esta tesis.

A los sinodales: el Dr. Jose Luis Marroquın Zaleta, el Dr. Arturo Hernandez Aguirre y el Dr.

Johan J. Van Horebeek por sus sugerencias en la revision de esta tesis.

A todos mis maestros y amigos del CIMAT por todo su apoyo, amistad y experiencias compar-

tidas. En especial a Francisco C. y a mis companeros de la maestrıa.

Finalmente, agradezco al Centro de Investigacion en Matematicas (CIMAT A.C.), al Consejo

Nacional de Ciencia y Tecnologıa (CONACYT) y al Consejo de Ciencia y Tecnologıa del Estado

de Guanajuato (CONCyTEG) por el apoyo proporcionado para que me fuera posible desarrollar

este trabajo y concluir exitosamente mis estudios de Maestrıa en Ciencias de la Computacion.

iii

Indice general

Agradecimientos III

Lista de Figuras VII

Lista de Tablas XII

1. Introduccion 11.1. Craneosinostosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Glioma del tallo cerebral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Imagenologıa medica 62.1. La Termografıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2. La Transiluminacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3. La Microscopıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4. Las Imagenes de rayos X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5. La Tomografıa computarizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.6. La Resonancia magnetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.6.1. Resonancia y relajacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7. Imagenes de medicina nuclear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.7.1. La Tomografıa por emision de positrones . . . . . . . . . . . . . . . . . . 162.7.2. La Tomografıa por emision de fotones . . . . . . . . . . . . . . . . . . . . 17

2.8. Formato de las imagenes medicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3. Modelos simbolicos para el analisis de malformaciones craneales causadas porcraneosinostosis primaria 193.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2. Problematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.5.1. Imagenes de tomografıa computarizada . . . . . . . . . . . . . . . . . . . 233.5.2. Representacion de craneos utilizando contornos . . . . . . . . . . . . . . . 243.5.3. Descriptores numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.3.1. Contexto de forma . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5.3.2. Imagen craneal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

iv

Contenido v

3.5.3.3. Descriptores de Fourier . . . . . . . . . . . . . . . . . . . . . . . 283.5.3.4. Reduccion de la dimensionalidad de los descriptores numericos . 29

3.5.4. Propuesta metodologica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5.5. Seleccion del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.5.6. Metodo de seleccion de variables . . . . . . . . . . . . . . . . . . . . . . . 373.5.7. Metodo para estimar el numero de topicos K . . . . . . . . . . . . . . . . 393.5.8. Muestra poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.6. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.6.1. Clasificacion de formas craneales (Algoritmo 1) . . . . . . . . . . . . . . . 413.6.2. Clasificacion de formas craneales con diccionario de rasgos reducido (Al-

goritmo 4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.6.3. Codificacion de informacion de forma en la MC y en la MCR . . . . . . . 43

3.7. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4. Clasificacion de tejido tumoral en gliomas del tallo cerebral en infantes 504.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2. Problematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2.1. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.4.1. Imagenes de resonancia magnetica . . . . . . . . . . . . . . . . . . . . . . 534.4.2. Propuesta metodologica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.4.2.1. Preprocesamiento de las imagenes . . . . . . . . . . . . . . . . . 554.4.2.2. Clasificacion de tejido . . . . . . . . . . . . . . . . . . . . . . . . 60

4.4.3. Segmentacion de BSG en imagenes T2 . . . . . . . . . . . . . . . . . . . . 624.4.4. Muestra poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5.1. Clasificacion de textura con el diccionario de rasgos reducido (Algoritmo 6) 634.5.2. Segmentacion de BSG usando el Algoritmo 7 . . . . . . . . . . . . . . . . 64

4.6. Discusion y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5. Conclusiones 69

A. Modelos de variables latentes para el analisis de textos 71A.1. Modelos generativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72A.2. Modelos de topicos probabilısticos . . . . . . . . . . . . . . . . . . . . . . . . . . 74A.3. PLSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

A.3.1. Aspectos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75A.3.2. Calculo de las probabilidades con EM . . . . . . . . . . . . . . . . . . . . 78

A.4. LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81A.4.1. Distribucion de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82A.4.2. Modelo grafico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83A.4.3. Interpretacion geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 84A.4.4. Extraccion de topicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85A.4.5. Muestreo de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Contenido vi

A.4.6. Estimando φ y θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86A.5. Ejemplo de analisis de texto usando un modelo de topicos probabilısticos . . . . 87A.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

B. SIFT 92B.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92B.2. Deteccion de puntos de interes en el espacio de escalas . . . . . . . . . . . . . . . 93B.3. Deteccion de extremos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94B.4. Estimacion precisa de la localizacion . . . . . . . . . . . . . . . . . . . . . . . . . 95B.5. Asignacion de orientacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95B.6. Representacion de los descriptores . . . . . . . . . . . . . . . . . . . . . . . . . . 96

C. Resultados de Craneosinostosis 98C.1. Clasificacion de formas craneales (Algoritmo 1) . . . . . . . . . . . . . . . . . . . 98C.2. Clasificacion de formas craneales con diccionario de rasgos reducido (Algoritmo 4) 99

Bibliografıa 101

Indice de figuras

1.1. La primer imagen se obtuvo con rayos X convencionales mientras que las restantesson reconstrucciones volumetricas de estructuras anatomicas humanas obtenidascon equipos modernos como la tomografıa computarizada. . . . . . . . . . . . . . 1

1.2. Vistas frontales y laterales de la reconstruccion volumetrica del craneo de uninfante afectado por craneosinostosis metopica. La sutura afectada se senala conla flecha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Imagen del tallo cerebral obtenida con resonancia magnetica. . . . . . . . . . . . 4

2.1. Imagen generada con termografıa. Muestra la distribucion de la temperatura enla superficie del objeto en estudio. . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Imagen de la superficie anterior de la retina obtenida con transiluminacion. . . . 82.3. La imagen de la izquierda muestra detalles de las bacterias (bacilos) que mi-

den aproximadamente una micra, mientras que la segunda imagen es de celulasobtenida con fluorescencia microscopica. . . . . . . . . . . . . . . . . . . . . . . . 9

2.4. Radiografıas de distintas partes del cuerpo humano. . . . . . . . . . . . . . . . . 112.5. Esquema de la obtencion de imagenes con tomografıa computarizada. Se emiten

rayos desde distintas posiciones, la informacion es recogida por los detectoresy posteriormente procesada en una computadora para finalmente obtener unaimagen fiable y detallada del objeto de estudio. . . . . . . . . . . . . . . . . . . . 12

2.6. Esquema de la manera en como opera la computadora con la informacion reco-lectada por los detectores. El cırculo representa el objeto a estudiar mientras queel rectangulo la imagen generada por la computadora. . . . . . . . . . . . . . . . 12

2.7. Reconstruccion en 3D de imagenes obtenidas con tomografıa computarizada. . . 132.8. Imagenes obtenidas con resonancia magnetica. . . . . . . . . . . . . . . . . . . . 142.9. Imagenes de resonancia magnetica. La imagen de la izquierda se obtienen con

mediciones T1, mientras que la de la derecha se genera con mediciones T2. . . . 152.10. Imagenes del cerebro obtenidas con tomografıa por emision de positrones. . . . . 17

3.1. El craneo es la estructura osea que protege al cerebro con los huesos temporales,frontales, parietales y occipitales. En la imagen se muestra la posicion de lassuturas y las fontanelas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2. Craneos afectados por craneosinostosis primaria. . . . . . . . . . . . . . . . . . . 203.3. Fotografıas de pacientes con craneosinostosis primaria. De izquierda a derecha: la

imagen de un recien nacido de 1.5 meses afectado por sinostosis sagital; la imagende un bebe de 3 meses con sinostosis metopica, la fotografıa de un paciente de 6semanas de nacido con sinostosis coronal. . . . . . . . . . . . . . . . . . . . . . . 20

3.4. Reconstruccion tridimensional de craneos afectados por craneosinostosis primariametopica antes y despues de la cirugıa reconstructiva. . . . . . . . . . . . . . . . 21

vii

Lista de figuras viii

3.5. Fotografıa de un paciente de 5 meses de edad con craneosinostosis sagital (imagende la izquierda). A la derecha, fotografıa del mismo paciente 7 meses despues deser sometido a la cirugıa reconstructiva. . . . . . . . . . . . . . . . . . . . . . . . 21

3.6. Los clasificadores deben ser capaces de generalizar correctamente y ası poderpredecir la etiqueta de una forma nueva . . . . . . . . . . . . . . . . . . . . . . . 23

3.7. Los descriptores de forma presentados en este trabajo se calculan a partir detres imagenes de tomografıa computarizada que se seleccionan en terminos dereferencias anatomicas bien definidas. El plano A se localiza en la parte superiordel ventrıculo lateral, el plano F, en la Foramina de Munro y el plano M, al nivelde la dimension mayor del cuarto ventrıculo. NS corresponde a la sutura nasalfrontal y O el opsithion. Los ventrıculos segmentados se muestran en color azul. . 24

3.8. Representacion de la forma de un craneo determinada por los contornos orienta-dos (en sentido contrario a las manecillas del reloj) de los niveles A, F y M. . . . 24

3.9. a) Imagen de tomografıa computarizada del craneo a nivel del plano A de unpaciente afectado por craneosinostosis metopica. b) Contorno del craneo orientadoen la direccion contraria a las manecillas del reloj. c) Veintiun componentes deldescriptor de Fourier, h es la longitud de la craneo en el plano A. . . . . . . . . . 25

3.10. Calculo de las distancias de los vertices del contorno con respecto a su centroide(x, y). El centroide pude estar fuera de la region si esta es concava o tiene huecos. 25

3.11. Conjunto de todos los posibles segmentos para un contorno compuesto de N = 5vertices. Hay K = N(N−1)

2 = 10 segmentos. . . . . . . . . . . . . . . . . . . . . . 263.12. A la izquierda se ilustra un ejemplo del calculo de la IC de un contorno con 5

vertices. El vertice inicial es el 1 y el contorno se recorre en sentido contrario a lasmanecillas del reloj. La matriz resultante, es simetrica y de dimension 5× 5. Enla imagen de la derecha, se presenta la forma de un craneo con los contornos delos niveles A, F y M. En este ejemplo de un juguete el contorno se representa por3 vertices y en el esquema, se trazan los segmentos del vertice 1 a los restantes8. La longitud de los segmentos trazados constituyen el primer renglon de la ICde la forma del craneo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.13. a) Contorno orientada de un craneo afectado por cranesosinostosis sagital. b)Imagen craneal del contorno orientado representado como una funcion. c) Imagencraneal representada como una imagen (matriz de distancias normalizadas entrevertices). α corresponde a la longitud de la cabeza (constante de normalizacion)en el plano A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.14. Imagen craneal de diferentes craneos, uno normal y tres sinostoticos. . . . . . . . 283.15. Contorno representado por la secuencia compleja z(n). . . . . . . . . . . . . . . . 283.16. De izquierda a derecha: Se presenta un contorno representado con 8 vertices,

despues se muestra la IC que se construye recorriendo el contorno en sentidocontrario a las manecillas del reloj. Le sigue la etiqueta asignada a los renglonesde la IC al aplicar k-means. Finalmente, se construye el contorno simbolico conlas etiquetas asignadas a la IC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.17. Construccion de dos bolsas de rasgos que se derivan del contorno simbolico re-presentado por ocho vertices. La primer bolsa se compone de rasgos de longitud3 y la segunda con rasgos de longitud 5. . . . . . . . . . . . . . . . . . . . . . . . 32

3.18. Matriz de concurrencia usando distintos contornos craneales: normales(N), metopi-cos(M), coronales(C) y sagitales(S). . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.19. Representacion del modelo generativo LDA. . . . . . . . . . . . . . . . . . . . . . 33

Lista de figuras ix

3.20. Logaritmo de la verosimilitud como una funcion del numero K de topicos con α =50 y β = 1, calculada para una matriz de concurrencia similar a la de la Figura3.18. La matriz incluye las cinco clases de craneos de la muestra poblacional. Elerror estandar de los puntos calculados es menor que el tamano de los sımbolossombreados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.21. Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima K con la matriz de concurrencia. En el Cuadro 3.9 se dan losparametros con los que se generaron dichas graficas. . . . . . . . . . . . . . . . . 45

3.22. Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima el numero de topicos K con la matriz de concurrencia reducida.En el Cuadro 3.10 se dan los parametros con los que se generaron dichas graficas. 46

3.23. Matrices de confusion ( %) de los mejores resultados obtenidos al variar el numerode topicos en K ∈ {2, 3, 4}. Resultados con la matriz de concurrencia y la matrizde concurrencia reducida (∗) y los kernels definidos en la seccion 3.5.4: sagital(S),metopico(M), control(C). La tabla de la derecha, contiene los parametros de lasmatrices de confusion. Las areas sombreadas son los resultados mas representativos. 47

4.1. El tallo cerebral (azul) controla las actividades que el cuerpo hace automaticamente. 504.2. Imagen de RM de un paciente con glioma de tallo cerebral (flecha roja) . . . . . . 514.3. Imagenes del tallo cerebral obtenidas con RM. La primer imagen es de tejido sano

mientras que en las 2 ultimas hay presencia de BSG. En la segunda imagen sepuede intentar delimitar el tumor mientras que en la tercera se vuelve una tareacomplicada debido a que el tumor no esta bien definido en su forma, a simplevista no se puede distinguir facilmente entre el tejido sano y afectado. . . . . . . 52

4.4. Los dercriptores simbolicos de textura presentados en este trabajo se calculan atraves de imagenes de resonancia magnetica que se seleccionan en terminos dereferencias anatomicas bien definidas. . . . . . . . . . . . . . . . . . . . . . . . . 54

4.5. Imagenes T2 de RM. La primera es de un paciente sano donde la zona de interesabarca el tallo cerebral y el cerebelo. La segunda imagen es de un paciente conBSG. La zona de interes cubre el tejido afectado por el tumor. . . . . . . . . . . 54

4.6. Mascaras utilizadas para seleccionar las regiones de interes de las imagenes de laFigura 4.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.7. Posiciones en los que se calcula la transformada SIFT con el algoritmo imple-mentado por David Lowe de las imagenes de la Figura 4.5. . . . . . . . . . . . . . 56

4.8. De izquierda a derecha: Los (∗) en la imagen senalan la posicion de puntos deinteres calculados con la transformada SIFT y sus correspondientes descriptores(vector de dimension 128). El algoritmo de k-means se aplica a todos los descrip-tores de todas las imagenes en I. El resultado es un conjunto de k clusters quese utilizan para etiquetas a los descriptores. En este ejemplo del juguete hay 3clusters etiquetados como a, b y c. . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.9. En la izquierda se presenta una imagen de dimension 3×3 en escala de grises, porel centro se muestran los niveles de gris asociados a la imagen y finalmente en laparte derecha el grafo no dirigido correspondiente a la imagen el cual esta com-puesto por υ = 9 nodos y 12 aristas. La medida de similaridad es el promedio delos niveles de gris entre 2 nodos vecinos. . . . . . . . . . . . . . . . . . . . . . . . 57

4.10. Segmentacion de una imagen en 3 regiones r1, r2, r3. Los elementos de cada regionson: r1 = {υ1, υ4}, r2 = {υ2, υ3, υ5, υ6, υ9} y r4 = {υ7, υ8}. . . . . . . . . . . . . . 58

4.11. Segmentacion de las zonas de interes de las imagenes de la Figura 4.5. Se usa elalgoritmo de Pedro F. Felzenszwalb. . . . . . . . . . . . . . . . . . . . . . . . . . 58

Lista de figuras x

4.12. Construccion de las bolsas de rasgos de una imagen. La imagen se divide en 3regiones. Las etiquetas simbolicas asociadas a cada region dan forma a las bolsasde rasgos. Las bolsas de rasgos de este ejemplo son: BR1 = {b, b, c}, BR2 = {b}y BR3 = {c, a}. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.13. Regiones generadas con el algoritmo de Felzenszwalb, el simbolo + representan lalocalizacion de las caracterısticas SIFT. Las primeras dos imagenes son de tejidosano, mientras que las dos ultimas son de tejido afectado por BSG. . . . . . . . . 59

4.14. De izquierda a derecha: MCT de tejido sano, MCT de tejido afectado por BSGy grafica que refleja la diferencia de las matrices presentadas en los primeros doscuadros de esta figura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.15. Matrices de confusion ( %): tejido sano (S) y tejido afectado por BSG (A). Resul-tados de la implementacion del Algoritmo 6. La tabla de la derecha, contienelos parametros de las matrices de confusion de la primer tabla. . . . . . . . . . . 64

4.16. Calculo de las palabras significativas variando el numero de etiquetas utilizadasen k−means (e). Las etiquetas que estan por debajo de la lınea punteada son laspalabras que se consideran significativas usando α = 0.05. La ultima grafica (se-gundo renglo, segunda columna) muestra la relacion entre el numero de etiquetasy el numero de palabras significativas obtenidas con cada una de estas . . . . . . 65

4.17. Relacion entre el tamano de la region y el numero de caracterısticas SIFT lo-calizadas en cada region. En esta grafica se incluyen regiones de tejido sano yregiones de tejido afectado por BSG. . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.18. Logaritmo de la verosimilitud como una funcion del numero K de topicos conα = 50 y β = 1, calculada para una matriz de concurrencia similar a las de laFigura 4.14. La matriz incluye las dos clases de tejido de la muestra poblacional.El error estandar de los puntos calculados es menor que el tamano de los sımbolossombreados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.19. Division de las imagenes de la primera columna usando el algoritmo de PedroF. Felzenszwalb (imagenes de la segunda columna). Las imagenes son de tejidoafectado por BSG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.20. Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primeracolumna se usa K = 3 y en la segunda K = 5. . . . . . . . . . . . . . . . . . . . . 67

4.21. Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primeracolumna se usa K = 10 y en la segunda K = 21. . . . . . . . . . . . . . . . . . . 68

A.1. Distribucion de las palabras de un vocabulario en tres topicos. A los topicos seles asocia una distribucion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

A.2. Generacion de nuevos documentos. . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.3. Modelo generativo p(d,z,w). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75A.4. Modelo generativo p(d,z,w) parametrizado. . . . . . . . . . . . . . . . . . . . . . 77A.5. Simetrıa de la distribucion de Drichlet para 3 topicos en un simplex de dimension

2. A la izquierda con α = 4 y a la derecha con α = 2. Las zonas mas oscurasındican mayor probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

A.6. Representacion grafica del modelo LDA. El doble cırculo representa la variableobservada, un cırculo las variables no observadas (latentes). Las cajas simbolizanun proceso repetitivo. Las variables a estimar son φ, θ y z mientras que α y βson las restricciones del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

A.7. Interpretacion geometrica del modelo de topicos. . . . . . . . . . . . . . . . . . . 85

Lista de figuras xi

A.8. En la primera grafica se estima el valor de α con β = 1, mientras que en lasegunda, se estima β con α = 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

A.9. A la izquierda se presenta la matriz de concurrencia que es la frecuencia de laspalabras del vocabulario en los documentos, mientras que a la derecha, se estimael numero de topicos con α = 50 y β = 1. . . . . . . . . . . . . . . . . . . . . . . 90

A.10.Las 10 palabras mas frecuentes con T = 2 y T = 3. . . . . . . . . . . . . . . . . . 91

B.1. En cada octava del espacio escalar, la imagen inicial es repetidamente convolu-cionada con Gaussianas para generar un conjunto de imagenes espaciadas, comose observa en la parte izquierda. Imagenes de Gaussianas adyacentes son subs-traıdas para producir la diferencia de Gaussianas como se ve en la parte derecha.Despues para cada octava, la imagen Gaussiana es muestreada por un factor de2 y el proceso se repite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

B.2. Calculo del maximo y el minimo de D(x, y, σ) comparando el pixel muestreadocon sus 9 vecinos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

B.3. Primero se calculan las magnitudes del gradiente y la orientacion de cada ima-gen muestreada en el punto en la region alrededor de su posicion (imagen dela izquierda). Estas son pesadas por una funcion Gaussiana. Las muestras sonacumuladas en histogramas de orientacion resumiendo el contenido en ventanasde 4 × 4 subregiones (figura de la derecha), donde cada flecha corresponde a lasuma de las magnitudes del gradiente. . . . . . . . . . . . . . . . . . . . . . . . . 97

C.1. Parametros del Cuadro C.1: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ). . . . 98

C.2. Parametros del Cuadro C.2: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ). . . . 100

Indice de cuadros

3.1. Funciones de nucleo utilizadas para construir las funciones de clasificacion conlas maquinas de soporte vectorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2. Matrices de confusion ( %) con los kernels definidos en el Cuadro 3.1: sagital(S),metopico(M), control(C). Matrices de confusion que se obtuvieron con la matrizde concurrencia. Las tasas de reduccion de dimensionalidad se presentan en elCuadro 3.3 y los parametros en el Cuadro 3.4. Las celdas sombreadas, representanlos mejores resultados del cuadro. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.3. Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.4. Parametros de las matrices de confusion del Cuadro 3.2: numero de topicos(K),numero de clusters para k-means (c), longitud de la palabra(λ), parametro delkernel gaussiano(γ). En todos los casos α y β valen 50 y 1 respectivamente. . . . 43

3.5. Matrices de confusion ( %) usando descriptores numericos: sagital(S), metopi-co(M), control(C). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.6. Matrices de confusion ( %) con los kernels definidos en Cuadro 3.1: sagital(S),metopico(M), control(C). Las matrices de confusion se obtuvieron con la matrizde concurrencia reducida. Las tasas de reduccion de dimensionalidad se presentanen el Cuadro 3.7 y los parametros en el Cuadro 3.8. Las celdas sombreadas,representan los mejores resultados del cuadro. . . . . . . . . . . . . . . . . . . . . 44

3.7. Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.8. Parametros de las matrices de confusion del Cuadro 3.6: numero de topicos(K),numero de clusters para k-means (c), longitud de la palabra(λ), parametro delkernel gaussiano(γ). El valor de α y β son de 50 y 1 respectivamente. . . . . . . . 45

3.9. Parametros de las gaficas de la Figura 3.21: topico en el que se alcanzo el maximo(Kmax), dimension de la matriz (DM), numero de clusters para k-means (c),longitud de la palabra (λ), tiempo en horas para generar las graficas (Time). . . 45

3.10. Parametros de las gaficas de la Figura 3.22: topico en el que se alcanzo el maximo(Kmax), dimension de la matriz(DM), numero de clusters para k-means (c),longitud de la palabra(λ), tiempo en horas para generar las graficas(Time). . . . 46

3.11. Rangos de los parametros en el espacio de busqueda: numero de centros parak-means (c), longitud de las palabras (λ), numero de topicos (K), parametros delmodelo LDA (α y β), nivel de significancia para obtener la matriz de concurrenciareducida (α∗), parametro del kernel (ν) y parametro del kernel gaussiano (γ). . . 46

4.1. Rangos de los parametros en el espacio de busqueda: numero de centros para k-means (c), nivel de significancia para obtener la matriz de concurrencia reducidaα∗ y parametros del kernel (ν, γ). . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

xii

Lista de cuadros xiii

A.1. Principales encabezados de los primeros 5 dıas del mes de Julio del periodico ElUniversal, que pertenecen al documento UnivJulio. . . . . . . . . . . . . . . . . . 88

A.2. Principales encabezados de los primeros 5 dıas del mes de Julio del periodico LaJornada, que pertenecen al documento JornJulio. . . . . . . . . . . . . . . . . . . 88

A.3. Se muestran las 15 palabras con mayor probabilidad en cada topico. Las proba-bilidades de los topicos se encuentran en el primer renglon en la columna 2 y4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A.4. Probabilidad de las 15 primeras palabras mas frecuentes en los tres topicos. . . . 91

C.1. Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matriz deconcurrencia y los kernels definidos en el Cuadro 3.1: sagital(S), metopico(M),control(C). En los cuadros de la Figura C.1, se presentan los parametros. Lasceldas en gris corresponden al mejor resultado de la tabla. . . . . . . . . . . . . . 99

C.2. Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matrizde concurrencia reducida y los kernels definidos en el Cuadro 3.1: sagital(S),metopico(M), control(C). En los cuadros de la Figura C.2, se dan los valores delos parametros de las matrices de confusion. En gris se resalta el mejor resultadode la tabla.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

Glosario xiv

Angiografıa: Tecnica radiografica que emplea un colorante que se inyecta en las cavidades del

corazon o en las arterias que conducen al corazon.

Difraccion: Dispersion y curvado aparente de las ondas cuando encuentran un obstaculo.

Espectro electromagnetico: Distribucion energetica del conjunto de ondas electromagneti-

cas.

Foton: Partıcula portadora de todas las formas de radiacion electromagnetica.

Gammacamara: Camara que registra la distribucion de una sustancia quımica que contiene

un radionuclido que es atraıdo por un organo especıfico o un tejido de interes.

Hidrocefalia: Acumulacion excesiva de lıquido en el cerebro.

Hematoencefalica: Barrera entre los vasos sanguıneos y el encefalo.

Ionizacion: Proceso quımico o fısico mediante el cual se producen iones, estos son atomos o

moleculas cargadas electricamente debido al exceso o falta de electrones respecto a un

atomo o molecula neutra.

Lentes magneticas: Los electrones describen trayectorias helicoidales en el interior de un

campo magnetico longitudinal y el efecto de concentracion se obtiene por el hecho de que

despues de una o varias rotaciones, los electrones que habıan partido de un punto comun

siguiendo distintas trayectorias se vuelven a reunir en la lente en otro punto. Proporcionan

alta eficiencia de recoleccion y alta resolucion espacial.

Miliroentgens: Milesima parte de un roentgen que es la unidad internacional de dosis de

exposicion a rayos X o gamma.

Material radioactivo: Material que contiene atomos inestables -radiactivos- que emiten ra-

diacion -ionizante- a medida que se desintegran.

Nanometros: Millonesima parte del metro.

Nanoimanes: Imanes microscopicos.

Neoplasia: Proliferacion anormal de celulas en un tejido u organo.

Paramagnetico: Dicho de un material que tiene mayor permeabilidad magnetica que el vacıo

y es ligeramente atraıdo por los imanes.

Positron: Es la antipartıcula correspondiente al electron, por lo que posee la misma masa y la

misma carga electrica, aunque de signo contrario.

Paramagnetico: Tendencia de los momentos magneticos libres a alinearse paralelamente a un

campo magnetico.

Glosario xv

Radiacion termica: Radiacion emitida por un cuerpo como consecuencia de su temperatura.

Reflexion: Reflejo de la incidencia de la luz u onda que incide sobre una superficie.

Refraccion: Cambio de direccion que experimenta una onda.

Radiaciones electromagneticas: Combinacion de campos electricos y magneticos oscilantes

que se propagan a traves del espacio tranportando energıa de un lugar a otro.

Sombragrama: Posicion del objeto a examinar entre la fuente emisora de rayos y un detector

del tipo de rayo que lo convierte en senales electricas.

Capıtulo 1

Introduccion

En anos recientes, el desarrollo de tecnologıas para la captura y procesamiento de imagenes

biomedicas ha evolucionado en forma espectacular. La visualizacion de la anatomıa humana y

sus patologıas ha alcanzado un grado de resolucion que no tiene precedente. Nuevas modalidades

de captura se expanden en forma exponencial. Paradojicamente, el escrutinio clınico de imagenes

biomedicas se encuentra confinado a la interpretacion (esencialmente subjetiva) del especialista.

Por ejemplo, algunos dispositivos de captura producen imagenes espectaculares de actividad

molecular especıfica que evidencıa la presencia de procesos degenerativos. Sin embargo, los

patrones de imagenes resultantes son tan complejos, que el analisis frecuentemente se limita

al uso de metodos cualitativos o semicuantitativos. La escasez de metodos cuantitativos de

analisis obstaculiza seriamente el estudio de las relaciones causales que conectan la estructura

anatomica, su funcionamiento y los procesos patologicos que la afectan.

Figura 1.1: La primer imagen se obtuvo con rayos X convencionales mientras que las restantesson reconstrucciones volumetricas de estructuras anatomicas humanas obtenidas con equipos

modernos como la tomografıa computarizada.

El analisis de imagenes biomedicas es difıcil no solo porque los patrones de informacion codi-

ficados en las imagenes pueden ser muy intrincados, sino porque la estructura biologica puede

1

Capıtulo 1. Introduccion 2

variar significativamente en la muestra de la poblacion bajo estudio. Ademas, imagenes genera-

das con dispositivos de diseno reciente pueden contener una cantidad gigantesca de informacion

multimodal, lo que dificulta aun mas su procesamiento y analisis.

La omnipresencia de los problemas descritos en relacion a la interpretacion y analisis de image-

nes para la investigacion biomedica requiere de la creacion de nuevas metodologıas compu-

tacionales de analsis basadas en principios matematicos solidos. Las tecnicas modernas de vi-

sion computacional y aprendizaje automatico por computadora proveen un marco teorico bien

fundamentado que permite manejar cuantitativamente imagenes complejas que pueden variar

sustancialmente de individuo a individuo.

La aplicacion basica de estas tecnologıas consiste en crear una representacion estructurada

de los datos que, ademas de ajustarse a las caracterısticas biologicas del problema, admite

metodos analıticos tratables. Dicha representacion se construye sobre la base de las propiedades

particulares del dominio de interes, por medio de modelos simples que se combinan con metodos

avanzados de aprendizaje por computadora y teorıa de la informacion, para incrementar su

capacidad de modelado.

El objetivo general de este trabajo se concentra en la aplicacion de modelos simbolicos de forma

para cuantificar la morfolgıa de estructuras anatomicas. Lo anterior, con el objeto de contribuir

al conocimiento del funcionamiento de los organos que componen el cuerpo humano. De esta

manera, identificar enfermedades y la efectividad de los tratamientos terapeuticos asociados.

Este trabajo se enfoca a dos patologıas que ocurren con cierta frecuencia en el ambito de la

medicina pediatrica.

En primer lugar se aborda el problema de crear metodos efectivos para cuantificar la morfologıa

del craneo de ninos afectados por enfermedades craneofaciales complejas; especıficamente, infan-

tes que padecen craneosinostosis primaria (o aislada). En segundo lugar se aborda el problema

de crear metodos cuantitativos para caracterizar el tejido afectado por gliomas del tallo cerebral,

a partir de imagenes de resonancia magnetica.

1.1. Craneosinostosis

La craneosinostosis es una condicion patologica infantil comun que se caracteriza por la fu-

sion prematura de las suturas del craneo [1]. Normalmente, las suturas del recien nacido estan

abiertas, lo que permite el desarrollo y crecimiento del cerebro. Sin embargo, en ninos con cra-

neosinostosis, una o varias suturas del craneo se cierran prematuramente. La fusion temprana

de las suturas ocasiona severas anormalidades en la forma del craneo ya que el crecimiento oseo

se inhibe en direccion a las placas oseas que no estan cerradas.


La craneosinostosis se dividen en sindromica y no sindromica. La craneosinostosis sindromica es

de origen congenito y generalmente ocurre en la presencia de patologıas de los sistemas circu-

latorio y musculoesqueletico del nino afectado. Usualmente varias suturas del craneo se cierran

prematuramente. Por otra parte, la craneosinostosis no sindromica (que afecta a 1 de cada

2,500 ninos recien nacidos) se subdivide en craneosinostosis primaria (solo una de la suturas se

ve afectada como se observa en la Figura 1.2) o compuesta (las dos suturas coronales se fusionan

prematuramente). Actualmente se desconocen las causas que producen la craneosinostosis no

sindromica.

Figura 1.2: Vistas frontales y laterales de la reconstruccion volumetrica del craneo de uninfante afectado por craneosinostosis metopica. La sutura afectada se senala con la flecha.

En la practica clınica era generalmente aceptado que procedimientos quirurgicos extensivos del

craneo constituıan un tratamiento efectivo para la craneosinostosis no sindromica. Sin embargo,

estudios recientes han demostrado que ninos que padecen craneosinostosis tienen una mayor pro-

babilidad de desarrollar una variedad de deficiencias neurofisiologicas que afectan el aprendizaje

y el comportamiento. Por ejemplo, Speltz et al. han sugerido que el riesgo de bajo desempeno

en ninos afectados puede ser, en promedio, cinco veces mas frecuente [2]. Magge y sus colegas

tambien identificaron deficiencias significativas en el coeficiente intelectual (IQ) en ninos que

padecen craneosinostosis aislada [3]. Virtanen et al. reportaron que en ninos que padecen cra-

neosinostosis no sindromica se observan; deficiencias auditivas, problemas de memoria a corto

plazo y deficiencias de lenguaje [4]. Pershing et al. encontraron que un 58 % de pacientes con

craneosinostosis de la sutura sagital tienen deficiencias de aprendizaje [5].

1.2. Glioma del tallo cerebral

Los gliomas del tallo cerebral son neoplasias que tienen consecuencias graves para la salud. Esta

patologıa es difıcil de abordar porque su patron de desarrollo se infiltra de manera heterogenea

dentro de la estructura anatomica. La radiologıa y los avances en resonancia magetica (RM)

han permitido mejorar la identificacion de los distintos tipo de gliomas. Tambien han permitido

orientar el tratamiento terapeutico para incrementar su efectividad. Sin embargo, los avances

son muy lentos por que a la fecha, no existen metodos cuantitativos capaces de caracterizar en

forma precisa este tipo de neoplasias a partir de imagenes de RM (en la Figura 1.3 se presenta


una imagen de RM del tallo cerebral). La caracterizacion cuantitativa del tejido es fundamental

para el desarrollo de nuevas tecnologıas que permitan pronosticar el estado de salud de un

individuo afectado, ası como desarrollar nuevas tecnicas efectivas de tratamiento. La creacion

de dichas tecnologıas es particularmente importante para la poblacion infantil. Esto se debe a

que los tratamientos actuales tienen un efecto en la calidad de vida de los ninos afectados.

Figura 1.3: Imagen del tallo cerebral obtenida con resonancia magnetica.

1.3. Motivacion

El presente trabajo se desarollo con el objeto de cumplir con los requerimientos de graduacion en

el programa de maestrıa del Centro de Investigacion en Matematicas (CIMAT). La idea basica

para cumplir con este requerimiento consistio en seleccionar un tema en el area del analisis

de senales de imagenes biomedicas que tiene que ver con la creacion de metodos cuantitativos

para caracterizar la anatomıa humana y sus patologıas. La tematica es vasta, compleja y tiene

aplicaciones importantes en todas las areas de la medicina.

En este trabajo solo se abordan dos aplicaciones de los descriptores simbolicos de forma que se

construyen sobre la base de modelos probabilısticos Bayesianos. Para abordar estas aplicaciones

desde un punto de vista practico se establecio que era conveniente hacer una revision bibliografica

que considera:

los metodos modernos de imagenologıa medica;

la importancia y limitaciones de las imagenes medicas en el ambito clınico, y

la importancia practica del analisis cuantitativo de imagenes medicas por medio de modelos

simbolicos de forma.

El contenido de esta tesis se estructuro sobre la base de esta revision bibliografıca. Dicho con-

tenido se describe a continuacion.


En el Capıtulo 2 se presenta una descripcion del uso y el funcionamiento de las distintas moda-

lidades imageneologicas para obtener informacion detallada del cuerpo humano. Las imagenes

generadas con herramientas como la termografıa, la microscopıa, la tomografıa computarizada

y la resonancia magnetica por mencionar solo algunas, son ampliamente usadas por los medicos

para detectar y estudiar la evolucion de diversas enfermedades. En el Capıtulo 3 se desarrolla

una metodologıa basada en un modelo Bayesiano jerarquico para cuantificar y clasificar malfor-

maciones del craneo causadas por craneosinostosis primaria. Se utilizan descriptores simbolicos

de forma para caracterizar las deformaciones del craneo tomando como base un conjunto de

imagenes de tomografıa computarizada (TC). En este capıtulo se hace una descripcion deta-

llada de las metodologıas que han sido propuestas en la literatura para construir descriptores

simbolicos de forma. Ademas, se presentan los resultados de un estudio en el que se compara

el desempeno de clasificacion de descriptores numericos tradicionales con el desempeno de los

descriptores simbolicos. En el Capıtulo 4 se desarrollan descriptores simbolicos de textura con

el objeto de construir clasificadores que permitan diferenciar entre tejido sano y tejido afectado

por glioma del tallo cerebral. Se presentan ademas los resultados de una serie de experimentos

de clasificacion que sugieren que el problema fundamental para caracterizar tejido tumoral a

partir de imagenes de RM, es el de desarrollar rasgos de textura discriminativos. El Capıtulo

5 concluye la tesis.

Capıtulo 2

Imagenologıa medica

El cuerpo humano esta formado por una variedad de sistemas que incluyen el cardiovascular, el

musculo-esqueletico y el nervioso central. Cada uno de ellos esta compuesto por subsistemas que

se encargan de ejecutar procesos fisiologicos complejos. Estos abarcan mecanismos de regulacion

hormonal, percepcion sensorial, control motor y funciones autonomas, tales como la respiracion

y el ritmo cardıaco. Alteraciones en la estructura anatomica y/o funcional de algun sistema u

organo del cuerpo, da origen a una enfermedad.

La imagenologıa medica es un conjunto de tecnicas que se utilizan para obtener informacion

del cuerpo, o partes de el, con el proposito de diagnosticar o examinar la evolucion de enferme-

dades. Acceder a los sistemas internos del organismo vivo es difıcil y riesgoso. Sin embargo, en

anos recientes se han desarrollado diversas tecnologıas que han permitido un mejor estudio y

visualizacion de las estructuras internas del cuerpo humano.

Mientras que hasta hace relativamente poco tiempo la informacion medica en forma de imagenes

se limitaba a las placas de rayos X convencionales, en la actualidad los medicos disponen de

diversas modalidades imagenologicas. La imagenologıa medica incorpora disciplinas como las

ciencias radiologicas, la endoscopıa, la termografıa y la fotografıa y la microscopıa entre otras.

En este capıtulo se presenta una breve resena de las tecnicas imagenologicas que se utilizan con

mas frecuencia en la practica clınica y la investigacion. La fuente bibliografica de la informacion

contenida en este capıtulo proviene de libros y de pagınas de internet debidamente referenciadas.

2.1. La Termografıa

El ser humano es una fuente de calor natural capaz de preservar su temperatura corporal. La

interfaz entre la fuente de calor y el medio ambiente es la piel. La piel es un organo dinamico que

se ajusta continuamente para compensar las condiciones internas y externas del cuerpo. Algunas

6

Capıtulo 2. Imagenologıa medica 7

enfermedades infecciosas o degenerativas causan un incremento en la temperatura corporal. La

termografıa medica es una herramienta muy util para el diagnostico de algunas anormalidades

en el organismo que se manifiestan como variaciones inusuales de la temperatura del cuerpo

(Figura 2.1) [6].

La superficie de la piel se puede modelar como un campo escalar, donde la temperatura es una

magnitud f que representa el estado termico del cuerpo en una posicion especıfica. La posicion

esta determinada por las coordenadas espaciales (x, y, z) y un tiempo dado t. Cuando se calcula

la temperatura de un individuo en un perıodo de tiempo se produce una senal (1D) en funcion

del tiempo f(t). Ahora bien, si se mide la temperatura del cuerpo en cada posicion espacial en

un instante de tiempo se genera una funcion de la distribucion de la temperatura (4D) de la

forma f(x, y, z, t) [7]. Las unidades utilizadas para medir la temperatura y el tiempo son los

grados Celcius ( ◦C) y los segundos (s) respectivamente.

La temperatura corporal se mide con una camara infrarroja. Las radiaciones infrarrojas se en-

cuentran entre las zonas visibles e invisibles del espectro electromagnetico. La principal fuente

de radiacion infrarroja es el calor o radiacion termica. Cualquier objeto que tenga una tempe-

ratura por encima del 0 absoluto (−273.15◦C) emite una radiacion en la zona de infrarrojos

[8]. El cuerpo humano esta expuesto a la radiacion cada dıa y aunque no sea posible verla, los

nervios de la piel la perciben como calor.

Figura 2.1: Imagen generada con termografıa. Muestra la distribucion de la temperatura enla superficie del objeto en estudio.

Actualmente, las camaras infrarrojas generan imagenes termicas nıtidas y de alta resolucion.

La termografıa es un metodo no invasivo, rapido y fiable que se usa para captar los cambios

de conductividad termica de la piel producidos por quemaduras, ulceraciones o injertos. Otras

aplicaciones comunes de la termografıa incluyen la deteccion precoz del cancer de piel y de

mama.

Una de las principales ventajas de la termografıa es que produce un patron completo de la pato-

logıa en tiempo real, ademas de revelar cambios funcionales en organos y tejidos de organismos

vivos antes de que cambios morfologicos asociados a la patologıa se presenten.


2.2. La Transiluminacion

Los organismos vivos estan compuestos por celulas, la mayorıa de estas se agrupan y dan forma

a los tejidos biologicos. Cuando se proyecta un haz de luz sobre los tejidos se producen dos

fenomenos de manera simultanea. La absorcion y la dispersion. El primer fenomeno se refiere a

la cantidad de fotones absorbidos por el tejido y el segundo a la proporcion de fotones reflejados.

La presencia de determinados pigmentos y elementos cromatoforo (como la melanina, la hemo-

globina, la mioglobina, etc.) marcan las diferencias de absorcion de un tejido a otro. La absorcion

de la luz tambien depende de la actividad metabolica de los tejidos.

Las variaciones espaciales en la absorcion luminosa de los tejidos se utilizan para formar som-

bragramas como el de la Figura 2.2. A esta tecnica se le conoce como transiluminacion [9].

La transiluminacion se ha usado para diagnosticar hidrocefalia en recien nacidos. Cuando se

proyecta un haz de luz en la cabeza de un nino con hidrocefalia, las zonas que estan anormal-

mente llenas de aire o lıquido se iluminan. La transiluminacion tambien se usa para detectar

hemorragias cerebrales y quistes o lesiones mamarias (la atenuacion de la luz es mayor en los

tumores de mama que en los tejidos adyacentes) [10].

Figura 2.2: Imagen de la superficie anterior de la retina obtenida con transiluminacion.

No existen riesgos a la salud asociados con esta tecnica. En general, la transiluminacion es

un examen medico poco confiable. Para confirmar el diagnostico de un trastorno, el medico

regularmente necesita examenes adicionales.

2.3. La Microscopıa

La microscopıa es una tecnica en la que un haz de luz pasa a traves de un sistema de lentes

que producen un campo brillante, el cual, permite observar pequenos objetos. Este metodo

generalmente implica fenomenos fısicos como la difraccion, la reflexion y la refraccion de la

radiacion incidente sobre el objeto de estudio.

El microscopio electronico consiste en un canon de electrones y lentes magneticas. Un generador

de barrido es el responsable de producir el movimiento de un haz de electrones, con la finalidad


de barrer la muestra punto a punto. Los electrones atraviesan la muestra y el conjunto de lentes

magneticas la amplifican formando una imagen sobre una placa fotografica o sobre una pantalla

sensible al impacto de los electrones que posteriormente transfiere la informacion generada a

una computadora [11].

Para poder analizar las muestras biologicas con el microscopio electronico, estas deben ser

preparadas por medio de fijacion, deshidratacion, infiltracion (en parafina o algun tipo de resina),

seccionamiento en cortes finos, tincion y montaje sobre una laminilla de cristal.

El seccionamiento permite que el haz de luz atraviese la muestra; mientras que la tincion es ge-

neralmente requerida para poder distinguir partes de la muestra que son incoloras. Comunmente

se aplica lo que se conoce como tincion diferencial, en la cual se emplean dos o mas tintes de colo-

res contrastantes que tienen afinidad por distintas partes de la muestra bajo estudio. Para tener

una imagen detallada debe haber una correspondencia entre la parte optica y la concentracion

en la muestra.

Figura 2.3: La imagen de la izquierda muestra detalles de las bacterias (bacilos) que mi-den aproximadamente una micra, mientras que la segunda imagen es de celulas obtenida con

fluorescencia microscopica.

Esta herramienta permite el estudio detallado de microorganismos como bacterias y hongos

(Figura 3.5) magnificando las muestras entre 40 y 100 veces su tamano normal, sin embargo, la

resolucion se reduce por factores como la difraccion, el astigmatismo, la aberracion cromatica,

la aberracion esferica y la distorsion geometrica [7]. Las unidades de medicion que se utiliza en

microscopıa son el micron (µ) que es la milesima parte del milımetro y el angstrom (A), definido

como la diez millonesima parte del milımetro.

La mayor utilidad de la microscopıa en el area medica es en la oncologıa y se usa para el

diagnostico de neoplasias. Tambien se utiliza para detectar enfermedades metabolicas y ampo-

llares de la piel.


2.4. Las Imagenes de rayos X

Los rayos X son radiacion electromagnetica que se distingue por su longitud de onda (entre 10 y

0.1 nanometros) . Estos se producen por la desaceleracion rapida de electrones muy energeticos

al chocar con un blanco.

La produccion de rayos X se lleva a cabo en un tubo de rayos X que contiene dos electrodos en

sus extremos, el catodo y el anodo. El tubo puede variar dependiendo de la fuente de electrones

y este puede ser de dos clases, tubos con filamento o tubos con gas.

El tubo con filamento es un tubo de vidrio al vacıo. El catodo, es un filamento caliente de

tungsteno, mientras que el anodo es un bloque de cobre. Los electrones generados en el catodo

son enfocados hacia un punto en el blanco y como resultado de la colision se producen los rayos

X. El anodo es refrigerado continuamente mediante la circulacion de agua pues gran parte de la

energıa que se produce al chocar los electrones con el blanco se transforma en energıa termica.

En el tubo con gas, hay una presion de aproximadamente 0.01 mmHg (milımetros de mercurio).

A diferencia del tubo con filamento, el catodo es de aluminio y concavo. Las partıculas ionizadas

de nitrogeno y oxıgeno, presentes en el tubo, son atraıdas hacia los extremos. Los iones positivos

son atraıdos por el catodo. Posteriormente, los electrones son acelerados hacia el anodo que al

colisionar producen los rayos X. El sistema de refrigeracion para el anodo es el mismo que se

utiliza en un tubo con filamento.

Cuando los rayos X interactuan con la materia, parte de estos se absorben y otros se reflejan. Esta

caracterıstica permite obtener las radiografıas. La absorcion de rayos X depende esencialmente

del area que atraviesan, la densidad de la materia y de la intensidad del rayo.

El paso de los rayos X por el cuerpo humano depende de la zona expuesta. Por ejemplo, los

tejidos blandos del cuerpo (como la sangre, piel, grasa y musculo) permiten que la mayorıa de

los rayos los atraviesen (zonas en gris oscuro de una radiografıa), mientras que los huesos (mayor

densidad) no permiten el paso de estos (zonas mas claras de una radiografıa) [7].

En la medicina, las radiografıas son comunmente usadas para detectar anormalidades en la

estructura osea del cuerpo (Figura 2.4), aunque tambien se utilizan para diagnosticar enferme-

dades de los tejidos blandos como la neumonıa, cancer de pulmon y abscesos [12].

La manera en como la radiacion afecta la salud del paciente expuesto a esta fuente de energıa

depende de la cantidad de la dosis de radiacion a la que es sometido. Al ano, una persona

esta expuesta a aproximadamente 100 miliroentgens de radiacion que proviene de fuentes como

el sol y de pequenos rastros de isotopos radiactivos. Durante una exposicion simple de rayos

X, el paciente recibe aproximadamente 20 miliroentgens de radiacion. La exposicion excesiva


Figura 2.4: Radiografıas de distintas partes del cuerpo humano.

puede producir efectos tales como quemaduras de piel, caıda de cabello, defectos de nacimiento

y cancer entre otros por mencionar.

2.5. La Tomografıa computarizada

En los anos 70, los fısicos, Alian MacLeod Cormack y Godfrey Newbold Hounsfield desarrollaron

una tecnica basada en rayos X a la que denominaron tomografıa computarizada (TC). MacLeod

penso que si se podia obtener un numero suficiente de proyecciones de rayos X a distintos

angulos se generarıa informacion suficiente para cuantificar y visualizar la estructura interna del

organismo. Hounsfield calculo la exactitud teorica de la tecnica, concluyendo que, con niveles

normales de radiacion podrıa medirse el valor absoluto del coeficiente de atenuacion con una

fiabilidad mayor al 95 %. Sin embargo, para aplicar la tecnica propuesta por MacLeod al area

medica hubo que esperar al desarrollo de la computacion y del equipo adecuado, que en conjunto,

tuvieran la capacidad de obtener multiples imagenes axiales separadas por pequenas distancias,

almacenar electronicamente los resultados y posteriormente procesarlos [9].

El equipo de TC emite un haz muy fino de rayos X sobre el objeto de estudio. Parte de la

radiacion emitida atraviesa el objeto y la radiacion no absorbida es recogida por unos detectores

en forma de espectro. Acto seguido, se envıa la informacion a una computadora. Luego, el emisor

del haz, que tenıa una orientacion determinada (por ejemplo, 90◦) cambia su orientacion (por

ejemplo, 95◦) y despues de emitir el haz de rayos X los detectores recogen el espectro y envıan la

informacion a la computadora. En la computadora se suman las dos imagenes, promediandolas.

Nuevamente, el emisor cambia su orientacion (segun el ejemplo, unos 100◦). Los detectores

nuevamente recogen el espectro y en la computadora se suma a los anteriores promediando los

datos. Esto se repite hasta que el tubo de rayos X y los detectores han dado una vuelta completa,

momento en el que se dispone de una imagen tomografica del cuerpo como si fuera una rodaja.

La imagen final es definitiva y fiable. En la Figura 2.5 se muestra un esquema del proceso antes

descrito.


Figura 2.5: Esquema de la obtencion de imagenes con tomografıa computarizada. Se emitenrayos desde distintas posiciones, la informacion es recogida por los detectores y posteriormenteprocesada en una computadora para finalmente obtener una imagen fiable y detallada del objeto

de estudio.

Para entender el funcionamiento de la computadora observe la Figura 2.6. Suponga que el cırculo

simboliza el area del cuerpo que se desea estudiar. El color negro representa el hueso (densidad

elevada), mientras que el gris representa el musculo (densidad media). En el esquema 1 y 2

se visualiza la imagen (cuadrado) resultado de una sola incidencia o proyeccion (90◦ y 180◦

respectivamente). En el esquema 3, se observa la imagen derivada de la informacion procesada

del esquema 1 y 2 por la computadora. Aquı, la zona de sombra ya esta limitada al centro

de la figura, pero la imagen presenta unos perfiles muy diferentes al objeto que se estudia (un

cuadrado en vez de un cırculo). Finalmente, en el esquema 4, la computadora dispone de datos

de cuatro incidencias: 45 %, 90 %, 135 % y 180 %. Los perfiles de la imagen son octogonales, que

es una mejor representacion del objeto real.

Figura 2.6: Esquema de la manera en como opera la computadora con la informacion recolec-tada por los detectores. El cırculo representa el objeto a estudiar mientras que el rectangulo la

imagen generada por la computadora.

El proceso descrito hasta este momento sirve para generar una sola imagen tomografica del ob-

jeto de estudio. Una vez obtenida la primer imagen, la mesa donde se encuentra el objeto avanza

(o retrocede) una unidad de medida (hasta menos de un milımetro) y el proceso se vuelve a re-

petir para obtener una segunda imagen tomografica. Se puede generar un conjunto de imagenes

transversales (axiales) que puden utilizarse para realizar una reconstruccion tridimensional del

objeto, como la que se observa en la Figura 2.7 [7].


Figura 2.7: Reconstruccion en 3D de imagenes obtenidas con tomografıa computarizada.

Los equipos de TC han tenido un avance tecnologico significativo y se han desarrollado distintas

variantes, como la TC de alta resolucion (de menos de un decimo de pulgada), la TC helicoidal o

espiral (el objeto y el haz se mueven simultaneamente) y la TC ultrarrapida (produce imagenes

en forma eficiente creando pelıculas de las partes moviles) por mencionar algunas.

Los estudios de TC se usan comunmente por especialistas medicos para estudiar vasos san-

guıneos, identificar tumores, guiar a un cirujano hacia el area correcta durante una biopsia, etc.

El equipo de TC crea niveles bajos de radiacion ionizante. Por esta razon el riesgo en el paciente

aumenta a medida que se llevan a cabo numerosos estudios.

2.6. La Resonancia magnetica

Un equipo de resonancia magnetica (RM), esta compuesto por un conjunto de emisores elec-

tromagneticos, antenas receptoras de radio frecuencia y computadoras donde se procesan datos

para producir imagenes detalladas, de dos o tres dimensiones con gran precision.

La RM se basa en el hecho de que ciertos nucleos atomicos, en particular los protones contenidos

en un atomo de hidrogeno se comportan como nanoimanes. Ahora bien, si se aplica un campo

magnetico de suficiente intensidad (1 a 3 teslas)[7], los protones se alınean en el sentido del

campo; una vez alineados, se someten a una senal de radiofrecuencia, los nucleos se perturban

y rotan en direccion del campo especificado por la senal. Si la senal cesa, los nucleos vuelven a

alinearse con el campo magnetico, retornando a su posicion original. El perıodo de tiempo que

los nucleos tardan en regresar a su posicion original se le conoce como tiempo de relajacion.

Durante el tiempo de relajacion se libera energıa y se emiten senales de radio que son captadas

por un receptor y analizadas en una computadora en el que se transforma la informacion en

imagenes.

Para generar la imagen por RM, se utiliza la informacion de la distribucion del hidrogeno en el

organismo. Como el hidrogeno es un componente de las moleculas de agua, la imagen de RM


mostrara su distribucion en cualquier region anatomica; ademas, como la duracion de la senal

emitida (tiempo de relajacion) esta influıda por la combinacion quımica de las moleculas de

agua, las imagenes de RM pueden discriminar los diferentes tipos de tejidos presentes en la zona

de estudio (Figura 2.8) [9].

Sin embargo, dado que los tiempos de relajacion son distintos para diferentes tejidos, los tiempos

se solapan y no proporcionan una informacion especıfica. Por ello, se han desarrollado agentes

de contraste (iones paramagneticos) que incrementan el poder discriminatorio de la RM. La

eficacia de los agentes de contraste en imagenes de RM depende de su capacidad de modificar

las propiedades magneticas de los protones, en especial su tiempo de relajacion en la molecula

de agua con la que interactuan.

Figura 2.8: Imagenes obtenidas con resonancia magnetica.

La RM ha resultado una tecnica muy util aplicada a la medicina por ofrecer varias ventajas,

entre las que podemos mencionar las siguientes: a) un mayor contraste entre tejidos blandos,

b) la capacidad para realizar imagenes de obtencion directa en cualquier orientacion y lugar en

el espacio, c) proporciona informacion morfologica, funcional y bioquımica y d) la posibilidad

de realizar angiografıas sin contraste y la rapidez para generar las imagenes que es superior

a los movimientos fisiologicos del organismo. Los factores antes mencionados, hacen de la RM

una de las tecnicas mas poderosas de diagnostico para estudiar diferentes patologıas, como las

cardiovasculares. Ademas de descartar alteraciones presentes en los organos y los tejidos del

cuerpo humano.

La RM involucra agentes fısicos que deben ser tratados cuidadosamente y que implican riesgos

que deben ser permanentemente vigilados como: la intensidad del campo magnetico, las corrien-

tes inducidas por los gradientes y en especial el deposito calorico de la radiofrecuencia. Estas

son muestras de que la aplicacion de esta tecnologıa debe de contar con un programa de control

de calidad que permite detectar, o descartar, alteraciones en los organos y los tejidos del cuerpo

humano, evitando procedimientos molestos y agresivos.


2.6.1. Resonancia y relajacion

La absorcion de energıa por resonancia de los protones del nucleo ocurre cuando un campo

oscilatorio externo interactua con las partıculas del nucleo a la frecuencia de Larmor. El vec-

tor de magnetizacion neto del nucleo tiene dos componentes. La magnetizacion longitudinal se

debe a un pequeno exceso de protones que se encuentran en estados bajos de energıa. Esto da

origen a una polarizacion neta paralela al campo de excitacion externa. Con un pulso de radio

frecuencia es posible destruir o revertir a este vector de polarizacion. El vector de magnetizacion

transverso se origina por la coherencia que existe entre dos estados de energıa de los protones

cuando se aplica un pulso de radiofrecuencia de 90 grados al nucleo. Esto da origen a una pola-

rizacion perpendicular al campo externo de excitacion en el plano transverso. La recuperacion

de magnetizacion longitudinal se denomina relajacion T1 y ocurre exponencialmente con una

constante de tiempo T1. La perdida de coherencia en el plano transveral se denomina relajacion

transversal T2. Estas dos mediciones en imagenes utilizando los dos diferente tipos de relaja-

cion, dan origen a dos tipos diferentes de imagenes de resonancia magnetica, que proporcionan

informacion complementaria respecto a la anatomıa bajo estudio (Figura 2.9).

Figura 2.9: Imagenes de resonancia magnetica. La imagen de la izquierda se obtienen conmediciones T1, mientras que la de la derecha se genera con mediciones T2.

2.7. Imagenes de medicina nuclear

Un estudio de medicina nuclear consta de tres fases: administracion del trazador (tambien

llamado radiofarmaco o radiosonda), toma de imagenes e interpretacion de las mismas. Los

radiofarmacos estan compuestos de un farmaco transportador y un isotopo radiactivo. La ra-

diosonda se introduce al organismo vıa intravenosa, vıa oral o se inhala como gas dependiendo

del tipo de examen de medicina nuclear al que se somete el paciente. Una vez que el radiofarmaco

se ha introducido al organismo, este se acumula en el area del cuerpo a examinar. El trazador,

emite energıa en forma de rayos gamma (fotones emitidos por elementos radiactivos) [7]. La

energıa emitida se detecta con un dispositivo denominado gammacamara y un escaner. Estos


dispositivos trabajan conjuntamente con una computadora para medir la cantidad de radio-

sondas absorbidas por el cuerpo y para producir imagenes especiales que proporcionan detalles

de la estructura y del funcionamiento de los organos y otras partes internas del organismo. Al

proceso de adquisicion de las imagenes durante la administracion del trazador se le conoce como

gammagrafıa.

Entre los procedimientos de medicina nuclear podemos encontrar la tomografıa por emision de

positrones y la tomografıa por emision de fotones, los cuales, se explicaran posteriormente en

esta seccion. Estas tecnicas generalmente constituyen examenes medicos indoloros.

Una de las principales desventajas de este metodo es que los procedimientos pueden llevar

mucho tiempo, dependiendo del tejido del cuerpo que va a examinarse y del trazador utilizado.

Las radiosondas pueden tardar horas en acumularse en la zona de interes, en consecuencia el

diagnostico por imagenes puede llevar un tiempo considerable.

Al evaluar el comportamiento del radionuclido en el cuerpo durante una gammagrafıa, el medico

puede evaluar y diagnosticar diversos trastornos, como tumores, abscesos, hematomas, agran-

damiento de los organos o quistes. Esta tecnica tambien puede utilizarse para evaluar el funcio-

namiento de los organos y la circulacion de la sangre.

2.7.1. La Tomografıa por emision de positrones

La tomografıa por emision de positrones (PET por sus siglas en ingles Positron Emission To-

mography), es una tecnica propia de la medicina nuclear. Es una herramienta capaz de medir

la actividad metabolica de los diferentes tejidos del cuerpo humano, especialmente del siste-

ma nervioso central. Se basa en la deteccion y analisis de la distribucion de un radioisotopo

en el interior del cuerpo administrado vıa intravenosa. Mide la produccion de fotones gamma

(resultado de la aniquilacion de un positron).

La PET utiliza las propiedades fısicas de los radioisotopos emisores de positrones. Tras una

corta distancia (dependiendo de su energıa cinetica), el positron colisiona con un electron, pro-

duciendose un suceso de aniquilacion, cuya energıa se disipa en forma de dos fotones, de identica

y constante energıa que divergen (aproximadamente, 180◦). Los fotones, que se proyectan por

tanto en direcciones divergentes, se detectan mediante sensores (Figura 2.10)[9].

De los radioisotopos emisores de positrones de utilidad medica destaca el Fluor-18, capaz de

unirse a la glucosa. La posibilidad de poder identificar, localizar y cuantificar el consumo de

glucosa por las diferentes celulas del organismo, ofrece un metodo importante para el diagnostico

medico, puesto que muestra que areas del cuerpo tienen un metabolismo glucıdico elevado.

Un elevado consumo de glucosa es, precisamente, la caracterıstica primordial de los tejidos

neoplasicos por lo que permite localizar los focos de crecimiento celular anormal en todo el


Figura 2.10: Imagenes del cerebro obtenidas con tomografıa por emision de positrones.

organismo en un solo estudio e independientemente de la localizacion anatomica donde asiente

la neoplasia (primaria o metastasica), ya que la PET no evalua la morfologıa de los tejidos, sino

su metabolismo [13]. La PET puede estudiar el aporte local de sangre y los consumos de oxıgeno,

acidos grasos, aminoacidos y de cualquier otro metabolito del metabolismo intermediario. Tales

datos son aplicables al estudio de un organo dado, en especial en cuadros isquemicos (cerebrales o

miocardicos), cuadros neurodegenerativos o de diferentes tumores. La PET es una herramienta

para estudiar y medir diversas actividades cerebrales: metabolismo de glucosa, consumo de

oxıgeno, flujo sanguıneo e interacciones de diferentes farmacos y drogas. Ello permite estudiar

los mecanismos de las reacciones quımicas en vivo como las bases moleculares de la adicion a las

drogas, del sındrome de abstinencia, del envejecimiento, de diferentes trastornos neurologicos y

de diversas enfermedades mentales.

2.7.2. La Tomografıa por emision de fotones

La tomografıa por emision de foton unico (SPECT) utiliza radioisotopos naturales emisores de

fotones. Los fotones son paquetes minienergeticos de radiacion electromagnetica que se emiten

en procesos de desintegracion nuclear. La deteccion de estos fotones se realiza siguiendo los

mismos principios que la PET. Las resoluciones espacial y temporal de la SPECT son inferiores

a las de la PET [9].

2.8. Formato de las imagenes medicas

El numero de dispositivos que obtienen imagenes digitalizadas es muy grande. En general, cada

uno hace uso de un formato distinto, aunque todos tienen la caracterıstica comun de almacenar

la imagen y la informacion textual vinculada a ella en campos separados. Con la necesidad de

intercambiar imagenes provenientes de dispositivos de diferentes fabricantes surgieron intentos

por crear formatos unificados, entre ellos el mas conocido es el DICOM (Digital Imaging and

Communication in Medicine) que es un formato estandar que define todas las estructuras y


formatos de ficheros, ası como los mensajes y protocolos para la transmision de imagenes a traves

de una red de comunicaciones. El formato DICOM tambien define metodos para implementar

polıticas de seguridad, principalmente basadas en criptografıa.

Dentro del grupo tematico constituido por las imagenes medicas, se pueden diferenciar las

siguientes areas principales:

Adquisicion de imagenes medicas: Se ocupa del hardware utilizado para la adquisicion de

imagenes medicas y los algoritmos asociados, en especial aquellos que se usan en la re-

construccion tridimensional.

Tratamiento y analisis de imagenes: Se estudian las tecnicas de filtrado y mejora de las

imagenes medicas, para eliminar el ruido y senales espureas, ası como los metodos de

segmentacion que permiten separar y extraer las estructuras de interes dentro de una

imagen. Segun la naturaleza de las imagenes y de la aplicacion, se procesa en dos o tres

dimensiones. La visualizacion se ocupa de la exploracion, representacion y manipulacion de

los datos (especialmente, imagenes tridimensionales). La gran cantidad de datos medicos

en forma de imagenes, ası como su naturaleza predominantemente tridimensional, hace

que la visualizacion tenga en la medicina uno de sus campos de aplicacion mas naturales

para facilitar al especialista el manejo y aprovechamiento de la informacion.

Sistemas de acceso y almacenamiento: Los sistemas de archivo y de comunicacion de

imagenes medicas, denominados sistemas PACS (Picture Archiving and Communication

Systems), almacenan las imagenes medicas digitalizadas en conexion con los sistemas de

informacion de los departamentos de radiologıa y permiten su acceso en red. Las imagenes

medicas siguen el estandar normalizado DICOM.

Capıtulo 3

Modelos simbolicos para el analisis

de malformaciones craneales

causadas por craneosinostosis

primaria

3.1. Introduccion

El craneo es la estructura osea que contiene y protege al encefalo. Este se compone por la

articulacion de ocho huesos que al momento del nacimiento no se encuentran fusionados ni

compleamente osificados, dejando huecos y zonas cubiertas por tejidos fibrosos conocidos como

suturas y fontanelas (Figura 3.1). Las suturas son lıneas que durante la vida fetal y los primeros

meses de vida del infante separan los huesos que constituyen la boveda del craneo; los huecos

que quedan en la confluencia de las suturas se les conocen como fontanelas [14].

Hueso frontal

Hueso occipital

Fontanela posterior

Sutura sagital

Hueso parietal

Fontanela anterior

Fontanela mastoidea

Sutura escamosa

Fontanela esfenoidal

Sutura lamboidea

Sutura coronal

Vista LateralVista Superior

Figura 3.1: El craneo es la estructura osea que protege al cerebro con los huesos temporales,frontales, parietales y occipitales. En la imagen se muestra la posicion de las suturas y las

fontanelas.

19

Capıtulo 3. Craneosinostosis primaria 20

Durante el desarrollo de los huesos del craneo hay cierta complacencia y flexibilidad que permiten

el crecimiento del encefalo [15]. La fusion de dos o mas huesos para formar uno solo se conoce

como sinostosis. Cuando la sinostosis entre dos placas craneales ocurre tempranamente durante

el desarrollo fetal, el crecimiento del craneo se inhibe en direccion perpendicular a la sutura

cerrada, en la direccion de las suturas abiertas, provocando un crecimiento anormal de la forma

del craneo. A esta fusion prematura de dos placas craneales se conoce como craneosinostosis

primaria.

Entre las craneosinostosis primarias mas comunes se encuentra la sagital, la metopica y la

coronal (Figura 3.2) [16]. La forma de un craneo con sinostosis sagital esta caracterizada por un

craneo largo y estrecho, con una prominencia frontal y occipital. La craneosinostosis metopica

se caracteriza por una frente estrecha y triangular. La sinostosis coronal esta caracterizada por

un achamiento del hueso frontal.

Figura 3.2: Craneos afectados por craneosinostosis primaria.

La craneosinostosis primaria es la forma mas comun de las sinostosis, con una prevalencia de

aproximadamente 1 en cada 2500 recien nacidos [1]. La craneosinostosis primaria es un defecto

de nacimiento relativamente comun y se presenta con frecuencia en instituciones hospitalarias

y centros de atencion neonatal (Figura 3.3).

Figura 3.3: Fotografıas de pacientes con craneosinostosis primaria. De izquierda a derecha:la imagen de un recien nacido de 1.5 meses afectado por sinostosis sagital; la imagen de unbebe de 3 meses con sinostosis metopica, la fotografıa de un paciente de 6 semanas de nacido

con sinostosis coronal.

La presencia de craneosinostosis primaria esta asociada con un incremento en la probabilidad

de padecer deficiencias cognitivas, ası como problemas de lenguaje, aprendizaje e importantes

trastornos de comportamiento.


Actualmente, el unico tratamiento para la craneosinostosis es el remodelado quirurgico del

craneo que tıpicamente se realiza en las primeras semanas de vida (Figura 3.4). En general, el

remodelado quirurgıco del craneo mejora la calidad de vida del paciente afectado. En la Figura

3.5 se muestra un paciente afectado por craneosinostosis sagital antes y siete meses despues de

la cirugıa reconstructiva.

Figura 3.4: Reconstruccion tridimensional de craneos afectados por craneosinostosis primariametopica antes y despues de la cirugıa reconstructiva.

Figura 3.5: Fotografıa de un paciente de 5 meses de edad con craneosinostosis sagital (imagende la izquierda). A la derecha, fotografıa del mismo paciente 7 meses despues de ser sometido a

la cirugıa reconstructiva.

El diagnostico de la craneosinostosis comienza con un examen fısico detallado. El medico, mide

la circunferencia de la cabeza del infante y realiza un tacto cuidadoso del craneo para detec-

tar los bordes de las suturas y los puntos debiles. La evaluacion tambien requiere de estudios

que utilizan tecnicas de imagenologıa medica, tıpicamente tomografıa computarizada. Los estu-

dios imageneologicos permiten al medico confirmar su diagnostico. Sin embargo, hoy en dıa, la

evaluacion medica es de caracter descriptivo y se basa esencialmente en la inspeccion visual y

subjetiva de las imagenes de TC [1].

Formulaciones clınicas sugieren que existe una lınea causal directa en la que una mutacion

genetica (aun no especificada) produce deficiencias cerebrales que no estan necesariamente aso-

ciadas a la morfologıa craneal [17]; otra hipotesis sugiere que el crecimiento del cerebro dentro

de un craneo malformado impide el desarrollo normal de las estructuras cerebrales [18]. Des-

afortunadamente, el estudio de la craneosinostosis ha sido limitado por la carencia de metodos

cuantitativos efectivos para caracterizar la forma del craneo y estudiar su posible asociacion con

otras variables biologicas y fisiologicas de interes en la medicina craniofacial.


3.2. Problematica

Metodos novedosos para clasificar formas craneales constituyen un paso importante en el desa-

rrollo de tecnicas para caracterizar la estructura craneal en pacientes afectados por craneosi-

nostosis primaria [19]. En anos recientes se han publicado metodologıas para clasificar craneos

afectados por craneosinostosis primaria. Por ejemplo, Richtsmeir y sus colaboradores propu-

sieron utilizar analisis de matrices de distancia Euclideana (EDMA por sus siglas en ingles),

tecnicas de vecino mas cercano y de maxima verosimilitud con la finalidad de clasificar craneos

afectados por craneosinostosis primaria. Estos clasificadores arrojaron tasas de error en el ran-

go del 18 − 32 % [19]. Lin y colaboradores propusieron varios metodos para clasificar craneos

sinostoticos utilizando descriptores de Fourier, distribuciones de cuerdas y descriptores simboli-

cos de forma. Los descriptores simbolicos se calculan a partir de un modelo probabilıstico. Los

parametros del modelo se estiman con metodos de maxima verosimilutud que generan solucio-

nes locales del problema de optimizacion [20]. Esta ultima propuesta, permite clasificar craneos

sinostoticos con tasas de error del 6 % al 10 % [21].

La caracterıstica mas importante de una metodologıa de clasificacion, es el desarrollo de des-

criptores de forma que permitan construir clasificadores eficientes y capaces de generalizar en

un conjunto de datos nunca antes visto. Si bien, los descriptores de forma craneal que se han

propuesto recientemente en la literatura permiten construir clasificadores que alcanzan tasas de

error razonables, no estan exentos de limitaciones que dificultan su uso en la practica [22, 23].

3.3. Objetivo

En este capıtulo se desarrolla una metodologıa nueva para construir descriptores simbolicos

de forma y funciones de clasificacion, que permite discriminar las distintas malformaciones

craneales ocasionadas por craneosinostosis primaria. Los objetivos particulares de este capıtulo

son:

1. Dada una base de datos compuesta por imagenes craneales obtenidas con tomografıa compu-

tarizada de infantes con craneosinostosis primaria (sagital, metopica y coronal) y de pa-

cientes de control, desarrollar nuevos descriptores simbolicos de forma basados en un

modelo jerarquico Bayesiano, para construir clasificadores capaces de discriminar malfor-

maciones craneales con bajas tasas de error de clasificacion (ver la Figura 3.6).

2. Comparar las tasas de error del desempeno de los clasificadores, con las tasas de error ge-

neradas con nuevas tecnologıas de clasificacion que se han reportado recientemente en la

literatura.


sutura sagital sutura metópica cráneo normal nuevo

1 1 2 2 3 3 ?

Figura 3.6: Los clasificadores deben ser capaces de generalizar correctamente y ası poderpredecir la etiqueta de una forma nueva .

3.4. Contribuciones

En esta seccion tambien se desarrolla una nueva metodologıa para construir descriptores simboli-

cos de forma. A continuacion, se describe brevemente las dos contribuciones de mi trabajo al

problema de clasificar craneos afectados por craneosinostosis primaria;

Una nueva metodologıa para construir un diccionario de rasgos reducido que se deriva del

diccionario de rasgos (seccion 3.5.6).

Uso de nuevas funciones nucleo que son una variante del kernel gaussiano introducidas en

la seccion 3.5.4.

3.5. Metodologıa

En esta seccion se describe nuestra metodologıa para clasificar craneos sinostoticos con base

en imagenes de TC. Tambien describimos detalladamente la fuente y metodos de preprocesa-

miento de los datos de las imagenes craneales, ası como los metodos basados en descriptores

numericos que se han propuesto en la literatura para caracterizar malformaciones producidas

por craneosinostosis primaria.

3.5.1. Imagenes de tomografıa computarizada

En este capıtulo todos los descriptores de forma se calculan a partir de imagenes de TC. Con

el objeto de estandarizar todas las mediciones, se utilizan vistas laterales calibradas de recons-

trucciones tridimensionales del craneo. La forma de los craneos esta codificada en terminos de

imagenes 3-D de TC. Los descriptores de forma se calculan a partir de imagenes que se ubican

en tres planos trazados en forma paralela a la base del craneo. El plano correspondiente a la

base del craneo esta definida en la parte anterior en terminos de la sutura nasal frontal y el

opsithion, en la parte posterior (Figura 3.7). El plano A se localiza en la parte superior del


ventrıculo lateral, el plano F, en la Foramina de Munro y el plano M al nivel de la dimension

mayor del cuarto ventrıculo (Figura 3.7).

F MA

Figura 3.7: Los descriptores de forma presentados en este trabajo se calculan a partir de tresimagenes de tomografıa computarizada que se seleccionan en terminos de referencias anatomicasbien definidas. El plano A se localiza en la parte superior del ventrıculo lateral, el plano F, enla Foramina de Munro y el plano M, al nivel de la dimension mayor del cuarto ventrıculo. NScorresponde a la sutura nasal frontal y O el opsithion. Los ventrıculos segmentados se muestran

en color azul.

3.5.2. Representacion de craneos utilizando contornos

Cada craneo en la base de datos se representa por medio de contornos. En la Figura 3.8, se

ilustra la representacion de la forma de un craneo con tres contornos orientados extraıdos de las

imagenes de los planos en los niveles A, F y M.

A

F

M

Figura 3.8: Representacion de la forma de un craneo determinada por los contornos orientados(en sentido contrario a las manecillas del reloj) de los niveles A, F y M.

Para extraer un contorno, se utilizaron tecnicas de segmentacion e interpolacion con funciones

spline. Cada contorno se representa en un plano 2D por un conjunto de vertices con coordenadas

{x(n), y(n)}, con n = {0, 1, . . . , N − 1}. En este trabajo, cada contorno se representa por un

conjunto de N = 200 vertices. Los contornos se orientan en direccion contraria a las manecillas

del reloj (Figura 3.9).

3.5.3. Descriptores numericos

Los descriptores numericos de forma han sido utilizados para clasificar formas biologicas [7]. En

este trabajo los utilizamos con la finalidad de comparar su desempeno con el desempeno de los


b c

h

a

Figura 3.9: a) Imagen de tomografıa computarizada del craneo a nivel del plano A de un pa-ciente afectado por craneosinostosis metopica. b) Contorno del craneo orientado en la direccioncontraria a las manecillas del reloj. c) Veintiun componentes del descriptor de Fourier, h es la

longitud de la craneo en el plano A.

descriptores simbolicos de forma que se presentan en las siguientes secciones.

Definicion 3.1. Un contorno es una representacion discreta en terminos de las coordenadas

(x, y) de los puntos a lo largo de una forma. Un contorno con N puntos se representa por una

serie de coordenadas {x(n), y(n)} donde n = {0, 1, . . . , N − 1}.

A partir de un contorno se pueden calcular las distancias de cada vertice del contorno a un

punto de referencia, como se muestra en la Figura 3.10. Con estas distancias se puede construir

un vector al que se le conoce como vector de rasgos de distancias. El vector de distancias se

calcula mediante la ecuacion 3.1, donde (x, y) son las coordenadas del punto de referencia.

d(n) =√

[x(n)− x]2 + [y(n)− y]2. (3.1)

Un punto de referencia conveniente, es el centro de masa del contorno, cuyas coordendas estan

dadas por las ecuaciones x = 1N

N−1∑n=0

x(n) y y = 1N

N−1∑n=0

y(n). La signatura del contorno es

invariante a la traslacion y provee informacion general de la naturaleza de la forma, como la

suavidad y la robustes.

y

x

(x,y)

d(0) d(1)

d(2)d(N−1)

Figura 3.10: Calculo de las distancias de los vertices del contorno con respecto a su centroide(x, y). El centroide pude estar fuera de la region si esta es concava o tiene huecos.


La principal desventaja de esta representacion, es que para distintas formas se puede generar

el mismo vector de rasgos. Para que una representacion de forma sea util debe ser invariante

a cambios de posicion, rotacion y escala. Ademas, deben de especificarse las coordenadas del

vertice inicial y la direccion en la que se recorre el contorno.

3.5.3.1. Contexto de forma

El contexto de forma(CF) propuesto por You y Jain [24], es un metodo usado ampliamente

para discriminar y clasificar contornos cerrados en 2D. Este descriptor se basa en una medida

de longitud de cuerda. El contexto de forma se define como una distribucion de probabilidad de

las distancias entre los vertices. Un contorno con N vertices tiene K = N(N−1)2 segmentos; ver la

Figura 3.11. En algunas aplicaciones las distancias entre vertices se normalizan con respecto a la

longitud del segmento mas grande del contorno. Notese que el CF es invariante a trasformaciones

de escala, rotacion y traslacion. Empıricamente se ha demostrado que la CF es robusta al ruido

o distorciones indeseables del contorno. Una de las principales desventajas de este descriptor es

que distintos contornos pueden tener la misma distribucion CF.

2

1

3

4

5

67

10

9

8

Figura 3.11: Conjunto de todos los posibles segmentos para un contorno compuesto de N = 5vertices. Hay K = N(N−1)

2 = 10 segmentos.

3.5.3.2. Imagen craneal

La imagen craneal (IC) es una representacion matricial para caracterizar contornos. La IC se

obtiene al calcular las distancias entre los N vertices de un contorno. La matriz de distancias

es simetrica y de dimension N ×N . La componente (i, j) de la matriz almacena la distancia del

vertice i al vertice j. En el cuadro de la izquierda de la Figura 3.12 se ilustra un ejemplo del

calculo de la IC para un contorno con N = 5 vertices.

La IC de la forma de un craneo se puede calcular con mas de un contorno. En este trabajo la

IC se construye con los vertices de los contornos orientados de los L = 3 niveles (A, F y M).

El calculo utilizando tres contornos es similar al calculo que se realiza cuando se tiene solo un

contorno. La matriz resultante es de dimension O(N2L2). Los contornos se recorren en sentido


1

2

3 4

5

3

6

10

1211

9

2

5

4

4

Imagen craneal

0 3 10 2

6

9 4 0 4 12

10 11 4 0 5

2 6 12 5 0

9

403 112

3

5

1 2 3 4 5

4

1

1

3

2

5

4

6

7

8

9

A

F

M

Figura 3.12: A la izquierda se ilustra un ejemplo del calculo de la IC de un contorno con 5vertices. El vertice inicial es el 1 y el contorno se recorre en sentido contrario a las manecillasdel reloj. La matriz resultante, es simetrica y de dimension 5× 5. En la imagen de la derecha,se presenta la forma de un craneo con los contornos de los niveles A, F y M. En este ejemplo deun juguete el contorno se representa por 3 vertices y en el esquema, se trazan los segmentos delvertice 1 a los restantes 8. La longitud de los segmentos trazados constituyen el primer renglon

de la IC de la forma del craneo.

contrario a las manecillas del reloj partiendo del vertice inicial el cual se define por la ubicacion

de la sutura metopica del craneo [7, 21]. En el segundo cuadro de la Figura 3.12, se muestran

los contornos de los niveles A, F y M. Cada contorno esta representado por 3 vertices. En la

figura se trazan los segmentos del vertice 1 a los restantes 8 vertices (del 2 al 9). La longitud

de los segmentos trazados en la figura constituyen el primer renglon de la IC de la forma del

craneo. En este trabajo cada contorno se representa por N = 200 vertices, por lo que la IC es

de dimension 600× 600.

1

0.5

0

a b c

Figura 3.13: a) Contorno orientada de un craneo afectado por cranesosinostosis sagital. b)Imagen craneal del contorno orientado representado como una funcion. c) Imagen craneal re-presentada como una imagen (matriz de distancias normalizadas entre vertices). α corresponde

a la longitud de la cabeza (constante de normalizacion) en el plano A.

En la Figura 3.13 se muestra la IC de un contorno afectado por craneosinostosis sagital y en la

Figura 3.14 se muestran las imagenes craneales generadas con cuatro craneos diferentes; uno de

un paciente de contol y tres con craneosinostosis primaria (coronal, sagital y metopica).


Figura 3.14: Imagen craneal de diferentes craneos, uno normal y tres sinostoticos.

3.5.3.3. Descriptores de Fourier

Si se recorre el contorno en sentido contrario a las manecillas del reloj como se ilustra en la

Figura 3.15, se puede construir una secuencia compleja de la forma z(n) = x(n) + jy(n). Esta

secuencia, es una funcion periodica con perıodo N . La secuencia |z(n)| puede usarse como una

signatura del contorno [7].

Las senales perıodicas se pueden analizar utilizando series de Fourier. Dada una secuencia en el

espacio discreto z(n), se puede derivar su serie de Fourier con un perıodo de su transformada

discreta de Fourier (TDF) Z(k). Entonces, la secuencia z(n) se obtiene con la funcion inversa

de la TDF. A los coeficientes Z(k) se les conoce como decriptores de Fourier del contorno z(n).

Z(k) es un vector de dimension N .

0 −> z(0) = x(0)+jy(0)

1 −> z(1) = x(1)+jy(1)

2 −> z(2) = x(2)+jy(2)

Z(0) = (x,y)

x

y0

2N−1

1

N−1 −> z(N−1) = x(N−1)+jy(N−1)

Figura 3.15: Contorno representado por la secuencia compleja z(n).

Para obtener un unico factor de forma, el descriptor de Fourier se normaliza como sigue:

1. Hacer Z(0) = 0. Para que el descriptor sea invariante a la posicion inicial.

2. Cada coeficiente se divide por la magnitud de |Z(1)|. Para normalizar el tamano del

contorno.


De esta manera, los descriptores se hacen invariantes a la posicion, la escala y del punto inicial

con el que se comience a recorrer el contorno. La normalizacion del descriptor Z0(k) se define

como,

Z0(k) =

{0, k=0;Z(k)|Z(1)| , Otro caso.

(3.2)

Para usar esta normalizacion, los puntos del contorno deben ser indexados de 0 a N − 1 en

sentido contrario a las manecillas del reloj. En caso contrario, usar |Z(−1)|. Finalmente solo

hacemos notar que Z(0) es el centro de masa del contorno.

Z(0) =1N

N−1∑n=0

z(n) = (x, y). (3.3)

En el presente trabajo, cada contorno se representa con N = 200 vertices. Se calculan los descrip-

tores de Fourier para los contornos de los L = 3 planos A, F, y M (Figura 3.7). Posteriormente,

los 3 descriptores se concatenan para obtener un descriptor unico de tamano O(LN), es decir,

cada caso se representa por un total de 600 elementos.

3.5.3.4. Reduccion de la dimensionalidad de los descriptores numericos

Con el objeto de construir clasificadores de malformaciones craneales, es indispensable reducir la

dimensionalidad de los descriptores descritos en las secciones previas. En general, la dimensiona-

lidad de los descriptores de forma debe den ser mucho menores al numero de datos disponibles.

Lo anterior, con el fin de que los clasificadores tengan mayor probabilidad de generalizar co-

rrectamente los datos[25]. En este estudio se usa analisis de componentes principales (PCA, por

sus siglas en ingles) y proyecciones aleatoreas (PA), para construir descriptores numericos de

forma, de 10 dimensiones aproximadamente.

PCA es una tecnica estadıstica de sıntesis de la informacion, o reduccion de dimensionalidad

(numero de variables). Es decir, ante un banco de datos con muchas variables (p), el objeti-

vo sera reducirlas a un menor numero (m) con la menor perdida de informacion. Los nuevos

componentes principales o factores, seran una combinacion lineal de las variables originales,

y ademas seran independientes entre sı. Para estudiar las relaciones presentes en p variables

correlacionadas (informacion comun), se puede transformar el conjunto original de variables a

otro conjunto de nuevas variables no correlacionadas (eliminar la repeticion y redundancia de la

informacion). Al conjunto de nuevas variables se les llama componentes principales. Las nuevas

variables son combinaciones lineales de las anteriores y se van construyendo segun el orden de


importancia de la variabilidad total que recogen de la muestra. Idealmente, se busca que m� p,

conservando la mayor parte de la informacion de los datos.

En PA, datos de alta dimensionalidad son proyectados a un espacio de menor dimension utili-

zando una matriz aleatoria, donde, las columnas forman vectores ortonormales. Una proyeccion

aleatoria de n a d dimensiones se representa por una matriz de dimension d×n. Para generar la

matriz se usa el siguiente algoritmo: a) formese una matriz de entradas independientes e identi-

camente distribuidas con una distribucion normal de media cero y desviacion estandar uno.

b) Generese un conjunto ortonormal de d vectores con el algoritmo de Gram-Schmidt, usando

como entrada los renglones de la matriz calculada en a).

PCA y PA, son tecnicas estandares para reducir la dimensionalidad de datos numericos. Si

bien es cierto PCA ha sido usado de manera exitosa en una gran variedad de aplicaciones,

el metodo de PA ha emergido como un metodo alternativo y poderoso. Este metodo ofrece

multiples ventajas para conjuntos de datos que no pueden modelarse apropiadamente con una

distribucion normal multivariable [26].

3.5.4. Propuesta metodologica

Las limitaciones de los descriptores numericos para entrenar clasificadores de contornos cra-

neales, que simultaneamente generalicen y produzcan bajas tasas de error, han motivado el

desarrollo y el uso de descriptores simbolicos de forma (DSF) [21]. En esta seccion se presenta el

algoritmo para clasificar craneos afectados por craneosinostosis primaria. El algoritmo considera

una etapa de entrenamiento para calcular el clasificador y una etapa de prueba para clasificar

el craneo nunca antes visto.

En los algoritmos se hace referencia al nombre de la funcion que se implementa en el paso

especıfico. El nombre de la funcion se anota en italicas y entre parentesis, con el objeto de

simplificar la presentacion del pseudocodigo (Algoritmo 1).

Entrada: Los craneos de sujetos afectados por craneosinostosis primaria y sujetos de con-

trol. Cada craneo se representa por tres contornos de 200 vertices cada uno. Los contornos

de cada craneo se calculan de los planos A, F y M como se describio en la seccion 3.5.2.

El i-esimo craneo Ci contienen N = 600 vertices en total. El conjunto total de formas

craneales se divide en dos subconjuntos: el de entrenamiento CE = {C1, C2, . . . , CM} y el

de prueba CP = {CM+1}. El conjunto C = CE⋃CP , tiene cardinalidad |C| = M + 1.

Otros parametros del algoritmo son: c, λ, K, α, β, y ν. El significado de cada uno de ellos

se describe en los parrafos que siguen.

Salida: Conjunto de descriptores simbolicos de forma y una funcion de clasificacion.


1. Calculo de la imagen craneal (ImagenCraneal): Se construye la imagen craneal de

cada uno de los elementos de C como se describe en la seccion 3.5.3.2. La imagen craneal

de cada elemento en C es de dimension 600× 600.

2. Asignacion de etiquetas simbolicas a los elementos de CE (kmeans): Las etiquetas

simbolicas se asignan con base en los atributos numericos (renglones de la imagen craneal)

asociados a los vertices del contorno. Las etiquetas simbolicas de cada vertice se calcu-

lan por medio del algoritmo k-means. El k-means es un algoritmo de aglomeracion. La

entrada a este algoritmo son los renglones de todas las matrices de ICE del conjunto de

entrenamiento. Cada renglon es un vector de 600 dimensiones. La salida del algoritmo es

un conjunto de c etiquetas, donde c < 600 es un parametro seleccionado por el usuario.

Los vertices de cada contorno se etiquetan de acuerdo al cumulo asignado al renglon de la

imagen craneal correspondiente. El resultado es un contorno simbolico de forma CS. La

construccion de un contorno simbolico se ejemplifica en la Figura 3.16.

3. Asignacion de etiquetas simbolicas a los elementos de CP (NearestNeighboor): Para

etiquetar los vertices del contorno de prueba CP se utilizan los centros c obtenidos con el

algoritmo k-means del conjunto de entrenamiento. Con el algoritmo nearest neighboor, se

asignan las etiquetas a los vertices del contorno de prueba. El algoritmo nearest neighboor

es un metodo de clasificacion supervisada. Los datos de entrada de este algoritmo son los

centros c y los renglones de la ICP del dato de prueba. El algoritmo regresa las etiquetas

asignadas de acuerdo al cumulo mas cercano a los elementos de la ICP . Los vertices del

contorno se etiquetan de acuerdo al cumulo asignado al renglon de la ICP . Ası se obtenie

el contorno simbolico correspondiente al craneo de prueba.

a

i

e

0

1

N−1

7

6

5

43

2

10 a

i

n

a

re

y

e

Figura 3.16: De izquierda a derecha: Se presenta un contorno representado con 8 verti-ces, despues se muestra la IC que se construye recorriendo el contorno en sentido contrarioa las manecillas del reloj. Le sigue la etiqueta asignada a los renglones de la IC al aplicark-means. Finalmente, se construye el contorno simbolico con las etiquetas asignadas a la

IC.

4. Construccion de la bolsa de rasgos (ConstruyeBRC ): Se construye la llamada bolsa

de rasgos para caracterizar a cada contorno en C. El proceso para construir la bolsa de

rasgos del contorno Ci ∈ C usando el contorno simbolico asociado CSi es el siguiente.


Las etiquetas asociadas a los vertices de cada contorno simbolico se utilizan para construir

rasgos de longitud λ. En la Figura 3.17 se ilustra el proceso de construccion de una bolsa

de rasgos. El rasgo del vertice xj es el resultado de concatenar 3 etiquetas del contorno

simbolico correspondientes a los vertices xj−1, xj y xj+1. En este ejemplo λ = 3. En la

Figura 3.17 tambien se construyen rasgos de longitud 3 y 5 de un contorno representado

por 8 etiquetas simbolicas. El objetivo de agrupar las etiquetas en un rasgo de longitud λ

tiene como finalidad capturar la correlacion que existe entre la informacion de un vertice

y sus vecinos. Al conjunto de rasgos de cada contorno simbolico se le denomina bolsa de

rasgos (BR). Notese que no hay un orden con respecto a los elementos en la bolsa de

rasgos. Notese ademas que los rasgos en una BR pueden repetirse mas de una vez. El

numero de elementos en la BR es igual al numero de vertices del contorno simbolico.

yea }

eye,

rey,

are,

nar,

ina,

ain,

{ eai, { niaey,

iaeye,

aeyer,

eyera,

yeran,

erani,

rania,

aniae }

a

i

n

a

re

y

e

Bolsa de rasgos 1 Bolsa de rasgos 2

Figura 3.17: Construccion de dos bolsas de rasgos que se derivan del contorno simbolicorepresentado por ocho vertices. La primer bolsa se compone de rasgos de longitud 3 y la

segunda con rasgos de longitud 5.

5. Obtencion del diccionario de rasgos (DiccionarioRasgos): Se extraen los diferentes

rasgos a partir de las BR correspondientes a los diferentes craneos del conjunto de en-

trenamiento. Al conjunto de distintos rasgos se le denomina diccionario de rasgos (DR).

6. Calculo de la matriz de Concurrencia (MatrizConcurrencia): Aquı se construye una

matriz que codifica la concurrencia de los rasgos del DR en las BR [27]. Los elementos

de la matriz almacenan el numero de veces (frecuencia) que los rasgos aparecen en cada

BR. A esta matriz se le conoce como matriz de concurrencia (MC). Los renglones de

la MC corresponden en nuestro trabajo a las diferentes clases de craneos y las columnas

representan los rasgos que constituyen el DR . La matriz de concurrencia construida con

las diferentes clases de craneos se observa en la Figura 3.18. Notese que en la figura, las

diferentes clases de craneos comparten rasgos comunes (rectangulos en la Figura 3.18).

7. Reduccion de dimensionalidad utilizando un modelo Bayesiano (AplicaLDA):

Se utiliza un modelo Bayesiano jerarquico llamado latent Dirichlet allocation (LDA) [28]

para reducir la dimensionalidad de la representacion en terminos de bolsas de rasgos. El

LDA representa la bolsa de rasgos de los craneos como mezclas probabilısticas de topicos.


Matriz de Concurrencia

Rasgos

Bol

sas

de r

asgo

s N

MC

S

200 400 600 800 1000

20

40

60

80

100

120

140

160

180

Figura 3.18: Matriz de concurrencia usando distintos contornos craneales: normales(N),metopicos(M), coronales(C) y sagitales(S).

Un topico se define como una distribucion multinomial sobre el DR. Es decir, el k-esimo

topico esta asociado a los parametros de una distribucion multinomial φk = {φkw}, w es

el ındice de los rasgos en el DR. Para generar un contorno simbolico CSi con el modelo,

primero se calculan las probabilidades de la mezcla θj = {θjk} para los K topicos. Para

el i-esimo rasgo de CSj , se elige un topico zij con probabilidad θjk. Una vez que el

topico se ha seleccionado, el rasgo xij se selecciona del topico zij , de tal manera que

xij = V(w) con probabilidad φkw, en donde V(w) es el w-esimo rasgo del DR. El problema

a resolver consiste en estimar z = {zij}, θ = {θk}, φ = {φk}, dados K y x = {xij}, en

donde i = 1, . . . , Nj ; w = 1, . . . ,W ; e j = 1, . . . , D; Nj es el numero de rasgos del j-

esimo contorno; y D es el numero total de CS de la muestra poblacional. Los descriptores

simbolicos de este modelo se definen como

θj = {θj1, · · · , θjK} (3.4)

en donde θjk es una estimacion de θjk. De esta manera los descriptores simbolicos para un

contorno simbolico se definen como una distribucion de probabilidad sobre los K topicos.

Para estimar z, θ y φ se utiliza un metodo Montecarlo de cadenas de Markov.

N D

!

z

"

#K

$j

x

Figura 3.19: Representacion del modelo generativo LDA.


El modelo grafico del modelo LDA se muestra en la Figura 3.19 donde z = {zij}, x = {xij},θ = θj , φ = {φj} y Nj es el numero de rasgos asignados al j-esimo contorno simbolico

de forma. La aplicacion de este modelo a la caracterizacion de formas es motivada por

un argumento intuitivo. La bolsa de rasgos de un contorno es formado concatenando las

etiquetas simbolicas de vertices adyacentes en el contorno. Los rasgos en la bolsa de rasgos

generado tienden a tener ciertos patrones de correlacion que se preservan a traves de las

instancias de las distintas clases de forma. Se presume que una clase de forma puede ser una

mezcla de diferentes patrones de correlacion que aparecen con distintas frecuencias (pro-

babilidades de las mezclas φ). Las diferentes clases pueden tener patrones de correlacion

semejantes, pero el punto es que la frecuencia con la que ocurren (probabilidad asignada a

los topicos θ) difiere significativamente entre las clases. Tales diferencias podrıan reflejar

informacion global de la forma describiendo como las caracterısticas geometricas de forma

estan organizadas dentro de las distintas clases de forma. Dados α y β, la funcion de

distribucion conjunta de todos los parametros y variables del modelo es;

p(x, z,θ,φ|α, β;K) =D∏j=1

Γ(Kα)Γ(α)K

K∏k=1

θnjk.+α−1jk

×K∏k=1

Γ(Wβ)Γ(β)W

W∏w=1

φn.kw+β−1kw (3.5)

Donde Γ es la funcion gamma, njkw = #{i : xij = w, zij = k}, y el punto es el ındice

sumado afuera: n.kw =∑

j njkw, y njk. =∑

w njkw. Dados los rasgos observados de la

bolsa de rasgos x, la tarea de la inferencia Bayesiana es calcular la distribucion sobre

los ındices de los topicos geometricos latentes z, la probabilidad de las mezclas θ y los

parametros de los topicos geometricos φ.

Aplicando muestreo de Gibbs para realizar inferencia se construye una cadena de Markov

que converja a la distribucion aposteriori en z y entonces usamos los resultados para in-

ferir θ y φ. Para aplicar este algoritmo se necesita la distribucion condicional completa

p(zij = k|z¬ij ,x;K), donde el subındice ¬ij se refiere a las variables xij y zij . Esta distri-

bucion condicional se calcula en dos pasos. Primero, la distribucion marginal p(z,x;K) es

obtenida marginalizando sobre θ y φ en 3.5 aplicando analisis conjugado. La distribucion

marginal sobre x y z es,


p(x, z|α, β;K) =K∏k=1

Γ(Wβ)Γ(n.k. +Wβ)

W∏w=1

Γ(n.kw + β)Γ(β)

×D∏j=1

Γ(Kα)Γ(nj.. +Kα)

K∏k=1

Γ(njk. + α)Γ(α)

(3.6)

= p(x|z;K)× p(z;K).

Cancelando terminos en 3.6 se obtiene el siguiente resultado

p(zij = k|z¬ij ,x, α, β;K) =n¬ij.kw + β

n¬ij.k. +Wβ·n¬ijjk. + α

n¬ijj.. +Kα. (3.7)

Teniendo la distribucion condicional completa el muestreado de Gibbs es simple. Las

variables zij son inicializadas con valores en 1, . . . ,K, determinando el estado inicial de la

cadena de Markov. La cadena entonces se corre para un numero de iteraciones, en cada

paso se encuentra un nuevo estado muestreando cada zij de la distribucion en 3.7. Despues

de un numero suficiente de iteraciones la cadena se aproxima a la distribucion, zij toma

el valor del ultimo estado de la cadena. Muestreos subsecuentes se consideran apropiados

para asegurar que la correlacion de las variables es baja. Los valores de θ y φ dado z y x

pueden ser estimados del muestreo de las cadenas por,

θjk =njk. + α

nj.. +Kα. (3.8)

φkw =n.kw + β

n.k. +Wβ. (3.9)

Note de 3.7 que p(zij = k|z¬ij ,x) ∝ (n¬ij.kw+β)(n¬ij.k. +Wβ)−1(n¬ijjk. +α); consecuentemente,

zij depende de z¬ij solo por las cuentas n¬ij.kw, n¬ij.k. , y n¬ijjk. .

La depedencia de zij en alguna variable particular zi′j′ es poco convincente para grandes

conjuntos de datos. Por esta razon se espera que la convergencia del muestreo de Gibbs

sea rapida.

Se aplica el modelo LDA a los elementos de la matriz de concurrencia. Como resultado, se

obtienen los descriptores simbolicos de forma basados en este modelo generativo, definidos

por los parametros estimados θj de el modelo LDA, es decir, se obtiene el vector Θj =

(Θj1, . . . ,ΘjK) , donde Θjk = θjk. En la siguiente seccion se describe la manera en como

se construyen los clasificadores usando Θ.


8. Construccion de los clasificadores con maquinas de soporte vectorial (Entrena-

Clasificador): Los clasificadores de formas craneales se construyen por medio de maquinas

de soporte vectorial tipo ν (ν-SVMs por sus siglas en ingles), donde, ν es una cota para

el numero de errores permitidos en la SVM [25]. Los clasificadores se entrenaron con los

descriptores simbolicos θj generados con el modelo LDA obtenidos con el conjunto de en-

trenamiento CE . Las maquinas de soporte vectorial se construyen con kernels lineales y

no lineales (Cuadro 3.1) derivados de metricas Hilbertianas [29]. Se usaron variantes de

kernels gaussianos, modificando el argumento de la exponencial por los kernels correspon-

dientes a KTV , KH1, KH2 y Kχ2 . A la variante de kernels gaussianos los identificamos

como KGTV , KGH1, KGH2 y KGχ2 .

Lıneal KL(θm, θn) =K∑j=1

θmjθnj

Gaussiano KG(θm, θn) = e−γ‖θm−θn‖2

Hellinger KH1(θm, θn) =K∑j=1|√θmj −

√θnj |

Helllinger modificado KH2(θm, θn) =K∑j=1|√θmj −

√θnj |2

Variacion Total KV T =K∑j=1|θmj − θnj |

Chi cuadrada Kχ2 =K∑j=1

(θmj−θnj)2(θmj+θnj)

Cuadro 3.1: Funciones de nucleo utilizadas para construir las funciones de clasificacioncon las maquinas de soporte vectorial.

El Algoritmo 1 presenta el pseudocodigo de la metodologıa descrita para construir clasificado-

res de formas craneales derivados de descriptores simbolicos de forma.

Algorithm 1 Clasificacion de formas craneales1: Entrada: CE , CP , c, λ, K, α, β2: Salida: Etiqueta del craneo de prueba (nueva etiqueta)3: ICE = ImagenCraneal(CE)4: ICP = ImagenCraneal(CP )5: CentrosICE = kmeans(ICE , c)6: CentrosICP = NearestNeighboor(CentrosICE , ICP )7: BRE = ConstruyeBRC(CE , CentrosICE , λ)8: BRP = ConstruyeBRC(CP , CentrosICP , λ)9: DR = DiccionarioRasgos(BRE)

10: MCE = MatrizConcurrencia(BRE , DR)11: MCP = MatrizConcurrencia(BRP , DR)12: ΘE = AplicaLDA(MCE , α, β, K)13: ΘP = AplicaLDA(MCP , α, β, K, ΘE)14: f = EntrenaClasificador(ΘE)15: NuevaEtiqueta = f(ΘP )


3.5.5. Seleccion del modelo

Todos los parametros libres del algoritmo descrito con anterioridad (c, λ, K, α, β y ν) se calculan

por medio de metodos de validacion cruzada (leave-one-out [25]) que permite minimizar el error

de clasificacion [25]. El Algoritmo 1, sintetiza el proceso para obtener los DSF.

3.5.6. Metodo de seleccion de variables

Experimentos preliminares de clasificacion mostraron que es posible reducir el numero de ele-

mentos en el diccionario de rasgos sin comprometer el desempeno de los clasificadores [30].

Por esta razon sugerimos que es posible llevar a cabo un proceso de seleccion de variables para

eliminar informacion comun a las diferentes clases de craneos (metopicos, coronales, sagitales y

de control).

La entrada a este procedimiento es la matriz de concurrencia calculada en el paso 11 del Algo-

ritmo 1. La salida del proceso es la matriz reducida de concurrencia (MCR) que se construye

utilizando un diccionario de rasgos reducido (V ). Este diccionario solo contiene rasgos que dife-

rencian a las distintas clases de craneos. Los rasgos que caracterizan las diferencias se seleccionan

utilizando una prueba de hipotesis. Todos aquellos rasgos que son significativos constituyen el

V .

El diccionario de rasgos reducido, se define como

V = VNM⋃VNC

⋃VNS

⋃VMC

⋃VMS

⋃VCS , (3.10)

en donde N , M , C y S representan las clases de craneos normales, metopicos, coronales y

sagitales, respectivamente. Vab representa el diccionario de rasgos reducido calculado para las

clases a y b, con a, b ∈ {N,M,C, S}. La prueba de hipotesis se efectua por medio de un metodo

de muestreo conocido como bootstrap [31]. El bootstrap se aplica sobre el conjunto de diferencias

que existen entre las matrices de concurrencia de las distintas clases. El algoritmo de seleccion

de variables se divide en dos fases. En la primera se generan estadısticos que caracterizan la

hipotesis nula, es decir, la hipotesis que sugiere que no hay diferencias signficativas entre los

rasgos de las distintas clases. Esta fase utiliza el algoritmo bootstrap para estimar empıricamente

las distribuciones de la hipotesis nula. En la segunda fase se ejecuta una prueba de hipotesis con

un nivel de confianza α∗ para determinar que rasgos del diccionario de palabras DR reflejan

diferencias significativas entre las distintas clases. La primer fase del algoritmo se describe a

continuacion.


Entrada: Las bolsas de rasgos de las clases a y b que contienen los elementos BRa =

{BRa1, . . . , BRan} y BRb = {BRb1, . . . , BRbm} respectivamente. Con a, b ∈ {N,M,C, S}.Ademas, el numero de ciclos del algoritmo bootstrap (nCiclosBootstrap ).

Salida: La matriz Dab de dimension nCiclosBootstrap×(n+m) y los conjuntos de rasgos

Ra y Rb de las clases a y b respectivamente. Las variables Ra y Rb se describen en el paso

1.

1. Concatenacion de las bolsas de rasgos de las clases a y b (ConcatenaRab): Los

elementos de Ra =n⊕i=1

BRai son resultado de concatenar los elementos de las bolsas

de rasgos de la clase a. De la misma forma Rb =m⊕i=1

BRbi representa todos los rasgos

de clase b. El operador de concatenacion⊕

se ilustra con un ejemplo sencillo. Sean

BRa1 = {eai, ain, ina} y BRa2 = {nar, are, rey} (ver Figura 3.17), entonces BRa1⊕BRa2 =

{eai, ain, ina, nar, are, rey}. Los elementos de Ra y Rb construyen el conjunto Rab =

Ra⊕Rb que contiene todos los rasgos de las dos clases. Rab es de dimension (n+m). Los

elementos de Rab son los rasgos {r1, . . . , rn, rn+1, . . . , rn+m}.

2. Muestreo Bootstrap (Bootstrap): Los pasos a, b y c se realizan nCiclosBootstrap veces

para construir la matriz Dab. En el algoritmo, i representa el ındice del ciclo bootstrap:

a) Construir un arreglo Rab = {r1, . . . , rn, rn+1, . . . , rn+m} de dimension |Rab| mues-

treando con reemplazo los elementos de Rab.

b) Realizar histogramas de frecuencias de rasgos con los elementos de Rab. Es decir, se

calculan los histogramas normalizados Ha = hist(r1, . . . , rn) y Hb = hist(rn+1, . . . , rn+m),

con respecto al diccionario de rasgos.

c) Calcular la diferencia de los histogramas de frecuencias obtenidos en el paso previo:

Dab(i) = abs(Ha − Hb). Dab(i) es el i-esimo renglon de la matriz Dab.

La metodologıa para realizar el muestreo bootstrap de dos clases de craneos se resume en el

Algoritmo 2. Despues de realizar la primer fase se obtiene como resultado la matriz Dab y las

bolsas de rasgos Ra y Rb. Ahora, se aplica la prueba de hipotesis para construir el Vab de las

clases a y b.

Algorithm 2 Muestreo Bootstrap para dos clases de formas craneales (MuestreoBootstrap)1: Entrada: BRa, BRb, nCiclosBootstrap2: Salida: Dab, Ra, Rb3: Rab=ConcatenaRab(Ra, Rb)4: Dab=Bootstrap(Rab)

A continuacion, se describe el algoritmo para determinar los elementos de Vab. El Algoritmo

3 sintetiza el proceso.


Entrada: Nivel de significancia α∗, diccionario de rasgos DR (de las clases N , M , C y

S), matriz Dab, bolsas de rasgos Ra y Rb.

Salida: Diccionario de rasgos reducido Vab.

1. Inicializar con ceros el vector indicador binario V Sab (InicializarVectorIndicador).

Este vector es de dimension |DR|. Note que si V Sab(j) = 1, entonces el j-esimo rasgo del

DR es significativo. De otra manera el rasgo no es significativo.

2. Calculo de diferencias de histogramas(DiferenciasHistogramas): Diferencia de los

histogramas de los rasgos de la clase a y la clase b. V Dab = abs(Ha − Hb), con Ha =

hist(Ra) y Hb = hist(Rb). A cada elemento del vector V D lo denotaremos como vdj ,

donde j es el ındice de la diferencia calculada para el j-esimo rasgo del DR.

3. Calculo de rasgos significativos (DeterminaSignificancia): Para cada columna de Dab

a la que identificaremos como dj calcular:

a) La distribucion acumulativa (cdf) de las diferencias (hipotesis nula) para el j-esimo

rasgo del diccionario: cdf(dj).

b) Calcular la significancia pj del valor de distancia de vdj , con respecto a la hipotesis

nula.

c) Si pj > (1− α∗) entonces V Sab(j) = 1.

4. Construir diccionario reducido (ConstruyeVab): Se forma el diccionario Vab con aque-

llos rasgos del diccionario DR para los que V Sab(j) = 1.

Algorithm 3 Determina que rasgos son significativos (SeleccionDeVariables).1: Entrada: α∗, DR, Dab, Ra, Rb2: Salida: Regresa Vab modificado3: V Sab = InicializarVectorIndicador4: V Dab = DiferenciaHistogramas(Ra, Rb)5: V Sab = DeterminaSignificancia(α∗, Dab, V Sab, V Dab)6: Vab = ConstruyeVab(DR, V Sab)

Es posible modificar el Algoritmo 1 para incorporar el diccionario y la matriz de concurrencia

reducidos. Esta modificacion se presenta en el Algoritmo 4.

3.5.7. Metodo para estimar el numero de topicos K

Una metodologıa para estimar el valor de K que mejor describe la distribucion de los rasgos del

DR en las bolsas de rasgos se presenta a continuacion.


Algorithm 4 Clasificacion de formas craneales con diccionario de rasgos reducido.1: Entrada: CE , CP , c, λ, K, α, β, α∗

2: Salida: Etiqueta del craneo de prueba (nueva etiqueta).3: ICE = ImagenCraneal(CE)4: ICP = ImagenCraneal(CP )5: CentrosICE = kmeans(ICE , c)6: CentrosICP = NearestNeighboor(CentrosICE , ICP )7: BRE = ConstruyeBRC(CE , CentrosICE , λ)8: BRP = ConstruyeBRC(CP , CentrosICP , λ)9: DR = DiccionarioRasgos(BRE)

10: V = SeleccionDeVariables(BRE , α∗)11: MCE = MatrizConcurrencia(BRE , V )12: MCP = MatrizConcurrencia(BRP , V )13: ΘE = AplicaLDA(MCE , α, β,K)14: ΘP = AplicaLDA(MCP , α, β, K, ΘE)15: f = EntrenaClasificador(ΘE)16: NuevaEtiqueta = f(ΘP )

Los parametros θjk estimados en el paso 13 del Algoritmo 1 dependen de α, β y K. Siguiendo la

estrategia descrita en [33], fijamos los valores de α y β, y exploramos las consecuencias de variar

K. Dados α y β, el problema de encontrar la K mas apropiada es un problema de seleccion del

modelo que resolvemos estimando la verosimilitud de p(x;K), por medio de la media armonica

de un conjunto de valores p(x|z;K) [16], cuando z se muestrea a partir de la posterior p(z|x;K):

p(x|K) =

[1m

m∑i=1

p(x|z(i);K)−1

]−1

.

0 20 40 60−8

−7.5

−7

−6.5x 10

5

K

log

p(x;

K)

Figura 3.20: Logaritmo de la verosimilitud como una funcion del numero K de topicos conα = 50 y β = 1, calculada para una matriz de concurrencia similar a la de la Figura 3.18. Lamatriz incluye las cinco clases de craneos de la muestra poblacional. El error estandar de los

puntos calculados es menor que el tamano de los sımbolos sombreados.

La Figura 3.20 muestra el logaritmo de la verosimilitud como una funcion del numero K de

topicos con α = 50 and β = 1. La funcion fue calculada para modelar una matriz de concurrencia

similar a la de la Figura 3.18, que incluye cuatro clases de craneos de la muestra poblacional:

sagital, metopica, coronal y normal. El maximo de la funcion se encuentra en K = 9 topicos.


3.5.8. Muestra poblacional

La muestra poblacional para el analisis de formas craneales se compone de 120 estudios tridi-

mensionales completos de tomografıa computarizada. Los estudios son de infantes que padecen

craneosinostosis primaria. Las mediciones fueron registradas antes de la cirugıa reconstructiva

para corregir la forma del craneo. Ademas, se cuenta con 50 estudios de pacientes que no pre-

sentan ninguna anormalidad (craneos de control). Los estudios de TC, provienen de una base

de datos del Children’s National Medical Center, Washington D. C.

3.6. Resultados

Esta seccion esta dividida en tres partes. En la primera, se presentan los resultados de cla-

sificacion correspondientes al Algoritmo 1, es decir, el algoritmo que no utiliza seleccion de

variables. En la segunda parte se presentan los resultados correspondientes al Algoritmo 4

que incluye la seleccion de rasgos que hacen patente las diferencias entre las diferentes clases

de formas craneales. En la tercer parte se cuantifica la diferencia entre la informacion de forma

craneal contenida en las matrices de concurrencia y las matrices de concurrencia reducida

3.6.1. Clasificacion de formas craneales (Algoritmo 1)

Los resultados de clasificacion para el Algoritmo 1 se resumen en el Cuadro 3.2. Los mejores

resultados de clasificacion se obtienen con el kernel KGχ2 . La tasa de reduccion de dimension

alcanzada en este caso fue de 100 : 1 (Cuadro 3.3). Los kernels KL, KG y KGH2 arrojan tasas

de clasificacion similares a las obtenidas con el KGχ2 . Sin embargo, la tasa de reduccion de

dimensionalidad es significativamente menor (67 : 1). Los resultados mas pobres se obtuvieron

con el kernel KGH1.

Todos los resultados de clasificacion se calcularon por medio de un metodo de validacion cruzada

(leave-one-out) que minimiza el error de clasificacion. Todos los parametros de los modelos que

produjeron las mejores tasas de clasificacion se obtuvieron por medio de una busqueda en el

espacio de parametros. Los rangos de los parametros en el espacio de busqueda se muestran

en el Cuadro 3.11. Los parametros con los que se obtuvieron los resultados del Cuadro 3.2 se

presentan en el Cuadro 3.4

Las matrices de confusion correspondientes a los experimentos de clasificacion utilizando PCA

y PA se muestran en el Cuadro 3.5. Las tasas de clasificacion son significativamente inferiores a

aquellas obtenidas con los descriptores simbolicos. La tasa de reduccion de dimensionalidad es

de 10 : 1. Las tasas de clasificacion se deterioran aun mas para tasas de reduccion de dimensio-

nalidad mayores (datos no mostrados).


KL Kχ2

S M C S M C

S 96.7 2.22 1.1 95.6 4.4 0M 0 94.74 5.26 2.63 84.21 13.16C 5.66 1.89 92.45 0 9.43 90.57

KG KGH1

S M C S M C

S 96.7 2.2 1.1 96.70 2.20 1.1M 0 94.74 5.26 2.63 89.47 7.89C 3.77 3.77 92.45 1.89 3.77 94.34

KH1 KGH2

S M C S M C

S 92.31 2.2 5.49 96.7 2.2 1.1M 0 89.47 10.53 0 94.74 5.26C 3.77 3.77 92.45 3.77 3.77 92.45

KH2 KGTVS M C S M C

S 91.21 8.79 0 95.6 2.2 2.2M 0 92.11 7.89 0 94.74 5.26C 1.89 5.66 92.45 5.66 1.89 92.45

KTV KGχ2

S M C S M C

S 93.41 2.2 4.4 96.7 2.2 1.1M 0 89.47 10.53 0 94.74 5.26C 5.66 1.89 92.45 3.77 3.77 92.45

Cuadro 3.2: Matrices de confusion ( %) con los kernels definidos en el Cuadro 3.1: sagital(S),metopico(M), control(C). Matrices de confusion que se obtuvieron con la matriz de concurrencia.Las tasas de reduccion de dimensionalidad se presentan en el Cuadro 3.3 y los parametros en

el Cuadro 3.4. Las celdas sombreadas, representan los mejores resultados del cuadro.

KL KG KH1 KH2 KTV Kχ2 KGH1 KGH2 KGTV KGχ2

TRD 67 : 1 67 : 1 120 : 1 85.7 : 1 100 : 1 75 : 1 67 : 1 67 : 1 67 : 1 100 : 1

Cuadro 3.3: Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.2.

3.6.2. Clasificacion de formas craneales con diccionario de rasgos reducido

(Algoritmo 4)

Los resultados de clasificacion para el Algoritmo 4 se resumen en el Cuadro 3.6. Los mejores

resultados de clasificacion se obtienen con el kernel KGH2. La tasa de reduccion de dimension

alcanzada en este caso fue de 120 : 1 (Cuadro 3.7). Note que los kernels KL, KGH1 y KGTV

generan mejores tasas de clasificacion que los resultados presentados en el Cuadro 3.2 para los



K 9 9 5 7 6 8 9 9 9 6C 200 200 250 250 175 200 150 200 200 175λ 3 3 7 5 5 9 11 3 3 5γ - - - - - - 0.1 0.1 0.1 0.1

Cuadro 3.4: Parametros de las matrices de confusion del Cuadro 3.2: numero de topi-cos(K), numero de clusters para k-means (c), longitud de la palabra(λ), parametro del kernel

gaussiano(γ). En todos los casos α y β valen 50 y 1 respectivamente.

PCA PAS M C S M C

S 93.4 2.63 5.66 95.6 0 5.66M 2.2 60.53 86.79 1.1 55.26 13.21C 4.4 36.8 86.79 3.3 34.21 71.7

Cuadro 3.5: Matrices de confusion ( %) usando descriptores numericos: sagital(S), metopi-co(M), control(C).

mismos kernels con tasas de reduccion de 100 : 1, 85.7 : 1, y 75 : 1 respectivamente. El peor

resultado del Cuadro 3.6 se presenta con el kernel KG con una reduccion de dimensionalidad

de 60 : 1. Los parametros del Cuadro 3.6 se presentan en el Cuadro 3.8

3.6.3. Codificacion de informacion de forma en la MC y en la MCR

Un hallazgo interesante de este estudio es que la matriz de concurrencia posee redundancias que

pueden no ser utiles para la construccion de clasificadores efectivos. Las graficas de la Figura

3.21 muestran los resultados obtenidos con la metodologıa descrita en la seccion 3.5.7. Los

maximos en cada una de las curvas corresponde al numero de topicos que mejor describen las

distribuciones de los rasgos en las bolsas de palabras (seccion 3.5.4). Las graficas se construyeron

con α = 50, β = 1 y los parametros mostrados en el Cuadro 3.9. Resultados similares se

obtuvieron con α ∈ [1, 50] y β ∈ [1, 10].

Las graficas de la Figura 3.22 muestran los resultados obtenidos con la matriz de concurrencia

reducida calculada con la metodologıa descrita en la seccion 3.5.6. Los maximos en cada una de

las curvas corresponde al numero de topicos que mejor describen las distribuciones de los rasgos

en las bolsas de palabras (seccion 3.5.6) construido con el diccionario de rasgos reducido. Las

graficas se construyeron con α = 50, β = 1 y los parametros mostrados en el Cuadro 3.10.

Las matrices de confusion en el Cuadro 3.6 claramente sugieren que los clasificadores construidos

con las matrices de concurrencia reducidas superan a aquellos construidos con las matrices de

concurrencia tanto en las tasas de clasificacion como en la tasa de reduccion de dimensionalidad.


KL Kχ2

S M C S M C

S 97.8 1.1 1.1 91.21 3.3 5.49M 0 94.74 5.26 0 89.47 1.53C 7.55 1.89 90.57 9.43 16.98 73.58

KG KGH1

S M C S M C

S 98.9 1.1 0 97.8 2.2 0M 0 86.84 13.16 0 92.11 7.89C 1.89 1.89 96.23 5.66 3.77 90.5

KH1 KGH2

S M C S M C

S 93.41 2.2 4.4 98.9 1.1 0M 0 86.84 13.16 0 94.74 5.26C 3.77 5.66 90.57 3.77 1.89 94.34

KH2 KGTVS M C S M C

S 95.6 2.2 2.2 96.7 1.1 2.2M 0 86.84 13.16 2.63 92.11 5.26C 3.7 7.55 88.68 3.77 0 96.23

KTV KGχ2

S M C S M C

S 93.41 3.3 3.3 96.7 2.2 1.1M 0 92.11 7.89 0 94.74 5.26C 3.77 7.55 88.68 5.66 1.89 92.45

Cuadro 3.6: Matrices de confusion ( %) con los kernels definidos en Cuadro 3.1: sagital(S),metopico(M), control(C). Las matrices de confusion se obtuvieron con la matriz de concurren-cia reducida. Las tasas de reduccion de dimensionalidad se presentan en el Cuadro 3.7 y losparametros en el Cuadro 3.8. Las celdas sombreadas, representan los mejores resultados del

cuadro.


TRD 100 : 1 60 : 1 85.7 : 1 85.7 : 1 100 : 1 85.7 : 1 67 : 1 120 : 1 75 : 1 85.7 : 1

Cuadro 3.7: Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.6.

Por ejemplo; en el Apendice C se muestran los resultados de clasificacion de algunos de los

experimentos que se realizaron para estudiar como se comportan las tasas de clasificacion cuando

se varia el numero de topicos.

Ahora bien, de la Figura 3.22, se observo, que con la MRC, las graficas alcanzan su maximo

en los topicos Kmax = 2, 3, 4. En la primer tabla de la Figura 3.23, se presentan las matrices

de confusion al fijar el numero de topicos en K ∈ {2, 3, 4}. En la segunda tabla se exponen los



K 6 10 7 7 6 7 9 5 8 7C 175 200 250 250 250 250 100 75 100 175λ 9 7 13 11 3 13 9 7 9 11γ - - - - - - 1.5 0.1 0.3 0.1

Cuadro 3.8: Parametros de las matrices de confusion del Cuadro 3.6: numero de topi-cos(K), numero de clusters para k-means (c), longitud de la palabra(λ), parametro del kernel

gaussiano(γ). El valor de α y β son de 50 y 1 respectivamente.

0 20 40 60−1.15

−1.1

−1.05

−1

−0.95x 10

6

K

log

p(x;

K)

0 20 40 60−9.5

−9

−8.5

−8

−7.5x 10

5

K

log

p(x;

K)

0 20 40 60−8

−7.5

−7

−6.5x 10

5

K

log

p(x;

K)

Figura 3.21: Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima K con la matriz de concurrencia. En el Cuadro 3.9 se dan los parametros

con los que se generaron dichas graficas.

Matriz de concurrenciaKmax DM c λ Time(hr.)

4 198× 118800 150 11 8.35986 198× 118800 175 5 8.04929 198× 118800 200 3 8.0191

Cuadro 3.9: Parametros de las gaficas de la Figura 3.21: topico en el que se alcanzo el maximo(Kmax), dimension de la matriz (DM), numero de clusters para k-means (c), longitud de la

palabra (λ), tiempo en horas para generar las graficas (Time).

parametros de la primer tabla.El mejor desempeno de los resultados de la tabla se generaron

con la MRC (∗) usando el kernel ∗KGH2 con una tasa de reduccion de 150 : 1. De los resultados

obtenidos con K < 5 note que el kernel ∗KG tiene una tasa de reduccion de 300 : 1, ademas se

obtienen los mismos valores de la diagonal principal que el mejor resultado del Cuadro 3.2.

3.7. Discusion

La craneosinostosis primaria es una area importante de investigacion que requiere la creacion

de nuevos metodos para caracterizar la anatomıa craneal. El desarrollo de metodos cuantita-

tivos para analizar el complejo craneofacial humano es crucial en el estudio de anormalidades

craneales, ası como su relacion con el estado neurofisiologico de individuos afectados. Un paso


0 20 40 60−5

−4.5

−4

−3.5

−3x 10

5

K

log

p(x;

K)

Matriz reducida

0 20 40 60−5.2

−5

−4.8

−4.6

−4.4

−4.2x 10

5

K

log

p(x;

K)

Matriz reducida

0 20 40 60−6.5

−6

−5.5

−5x 10

5

K

log

p(x;

K)

Matriz reducida

Figura 3.22: Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima el numero de topicos K con la matriz de concurrencia reducida. En el Cuadro

3.10 se dan los parametros con los que se generaron dichas graficas.

Matriz de concurrencia reducidaKmax DM c λ Time(hr.)

3 198× 55336 75 7 3.69364 198× 61438 100 9 4.11592 198× 62923 175 11 3.1184

Cuadro 3.10: Parametros de las gaficas de la Figura 3.22: topico en el que se alcanzo elmaximo (Kmax), dimension de la matriz(DM), numero de clusters para k-means (c), longitud

de la palabra(λ), tiempo en horas para generar las graficas(Time).

Parametro Rango Total de valores

c 50, 75, 100, 125, 150, 175, 200, 225, 250 9λ 3, 5, 6, 7, 8, 9, 11 7K 5, 6, 7, 8, 9, 10 6α 50 1β 1 1α∗ 0.05 1ν 0.01 : 0.3 en incrementos de 0.005 59γ −0.000001,−0.0001,−0.01, 0.1, 0.3, 0.7, 1.5, 3 8

Cuadro 3.11: Rangos de los parametros en el espacio de busqueda: numero de centros parak-means (c), longitud de las palabras (λ), numero de topicos (K), parametros del modelo LDA(α y β), nivel de significancia para obtener la matriz de concurrencia reducida (α∗), parametro

del kernel (ν) y parametro del kernel gaussiano (γ).

importante en esta direccion es el desarrollo de descriptores de forma que permiten la clasifica-

cion de las malformaciones por craneosinostosis.

En este trabajo hemos comparado el desempeno de clasificacion de descriptores simbolicos ba-

sados en los modelos generativo LDA y descriptores numericos que se utilizan tradicionalmente

para cuantificar la forma de contornos orientados.

Los descriptores simbolicos alcanzan tasas de error mucho menores que los descriptores numeri-

cos a tasas de reduccion de dimensionalidad de 100 : 1. Cabe destacar que los descriptores


S M C

S 96.7 3.3 0KL M 2.63 92.11 5.26

C 7.55 7.55 84.91

S 94.51 2.2 3.3KG M 0 92.11 7.89

C 5.66 1.89 92.45

S 97.8 1.1 1.1∗KL M 0 94.74 5.26

C 7.55 3.77 88.68

S 97.8 1.1 1.1∗KG M 2.63 92.11 5.26

C 5.66 1.89 92.45

S 95.6 2.2 2.2∗KGH1 M 2.63 92.11 5.26

C 7.55 1.89 90.57

S 96.7 1.1 2.2∗KGH2 M 0 94.74 5.26

C 5.66 1.89 92.45

S 95.6 1.1 3.3∗KGTV M 0 92.11 7.89

C 3.77 5.66 90.57

S 97.8 1.1 1.1∗KGχ2 M 2.63 92.11 5.26

C 9.43 1.89 88.68

K c λ γ TRD

KL 4 50 9 - 150:1KG 4 175 3 - 150:1∗KL 3 200 11 - 200:1∗KG 2 125 7 - 300:1∗KGH1 4 125 7 0.3 150:1∗KGH2 4 125 7 3 150:1∗KGTV 4 175 13 0.3 150:1∗KGχ2 2 75 13 0.1 300:1Numero de topicos (K), numero de clusterspara k-means (c), longitud de la palabra(λ),

parametro del kernel gaussiano (γ), tasade reduccion de dimensionalidad (TRD).

Figura 3.23: Matrices de confusion ( %) de los mejores resultados obtenidos al variar el numerode topicos en K ∈ {2, 3, 4}. Resultados con la matriz de concurrencia y la matriz de concurrenciareducida (∗) y los kernels definidos en la seccion 3.5.4: sagital(S), metopico(M), control(C). Latabla de la derecha, contiene los parametros de las matrices de confusion. Las areas sombreadas

son los resultados mas representativos.

numericos pueden alcanzar tasas similares de clasificacion. Sin embargo, el incremento en desem-

peno de clasificacion implica que la probabilidad de sobreestimacion de parametros del clasi-

ficador se incrementa significativamente. Destacamos tambien que no encontramos diferencias

significativas en el desempeno de los algoritmos PCA y proyecciones aleatorias en la tarea de

clasificacion.

En este capıtulo tambien se analizo la capacidad del algoritmo de contexto de forma. Este

algoritmo es difıcil de aplicar en el problema que nos ocupa debido a que no es capaz de tratar

directamente con multiples contornos orientados para una sola forma craneal. Si bien, es posible

adaptar este algoritmo para procesar multiples contornos, se encontro que su desempeno para

caracterizar formas de manera simbolica es deficiente (datos no presentados).


Un hallazgo interesante de este trabajo es que el nuevo metodo de seleccion de variables pro-

puesto en este trabajo de tesis elimina en forma efectiva informacion que no discrimina entre

los diferentes tipos de clases de craneos, sin comprometer las tasas de clasificacion. En general

las tasas de reduccion de dimensionalidad son mejores cuando se utiliza el diccionario de rasgos

reducido para construir los descriptores de forma.

Se mostro que el considerar las palabras de la matriz de concurrencia que son significativas

(matriz de concurrencia reducida) son una buena alternativa para caracterizar formas craneales

debido a que los resultados de clasificacion son comparables y en algunos casos mejores que las

que se obtienen con la matriz de concurrencia original.

Existen modelos generativos alternativos al LDA. Por ejemplo, el llamado PLSA (probabilistic

laten semantic analisys). Sin embargo, existen varias razones por las cuales los descriptores

basados en LDA ofrecen varias ventajas sobre los descriptores basados en PLSA.

El modelo PLSA se desarrollo originalmente para caracterizar el proceso generativo de docu-

mentos [20]. Ha sido usado exitosamente en las areas de aprendizaje por computadora y recono-

cimiento de clases de objetos [32, 35], analisis de escenas visuales [36] y clasificacion de formas

[21]. Sin embargo, este modelo tiene problemas serios con la sobreestimacion de parametros

[37, 38].

En las aplicaciones concernientes a la investigacion en craneosinostosis, el PLSA tiene limita-

ciones adicionales. Los parametros del modelo se calculan generalmente mediante metodos de

maxima verosimilitud (como el algoritmo EM), que en general produce una solucion que corres-

ponde a un mınimo local (esto es, los descriptores simbolicos basados en PLSA corresponden

a un extremo local de la funcion de verosimilitud). Diferentes corridas del algoritmo de esti-

macion producen diferentes soluciones locales. Esto se debe a que el algoritmo de estimacion

normalmente se inicializa con valores seleccionados al azar.

Si bien los resultados obtenidos en este trabajo sugieren que el desempeno de los descriptores

simbolicos basados en modelo PLSA y aquellos basados en el modelo LDA son comparables, el

uso del descriptores basados en LDA es el preferido para investigaciones en craneosinostosis. Los

descriptores simbolicos de forma no solamente se utilizan para clasificar. Tambien se utilizan

para caracterizar posibles asociaciones (a traves de modelos de regresion) entre la forma de

craneo y una diversidad de variables geneticas, fisiologicas o neurofisiologicas, que caracterizan

el estado de salud de un paciente. Por esta razon sugerimos que los descriptores simbolicos

basados en PLSA deben de examinarse cuidadosamente en sus aplicaciones en craneosinostosis.

El modelo LDA es un modelo generativo bien definido que generaliza correctamente nuevas for-

mas simbolicas [37] y puede utilizarse para crear modelos de regresion. Nuestra implementacion

del modelo LDA utiliza un procedimiento Monte Carlo que provee parametros del modelo que


se calculan promediando sobre todas la soluciones locales de la funcion de verosimilitud [33], lo

que evita que ocurra una sobreestimacion de los parametros como en el caso del modelo PLSA.

Vale la pena mencionar que las tasas de error para un conjunto de craneos afectados con craneo-

sinostosis unicoronal fueron del orden del 30 %. Nosotros cremos que esto se debe principalmente

al numero reducido de muestras que tenemos para caracterizar este tipo de malformacion cra-

neal (un total de 16 craneos de infantes). Se requiere trabajo adicional para decidir si este es un

resultado significativo o solamente es una consecuencia relacionada con el tamano de la muestra.

3.8. Conclusiones

En sıntesis, hemos presentado una metodologıa que utiliza un modelo Bayesiano jerarquico pa-

ra clasificar craneos afectados por craneosinostosis. Tambien hemos presentado un metodo de

reduccion de dimensionalidad que opera en forma efectiva. Llevamos a cabo un estudio compa-

rativo con metodologıas estandar publicadas con anterioridad y mostramos que el desempeno

de los descriptores simbolicos de forma es superior al de los descriptores numericos estandar.

Los resultados que aquı presentamos deberan de confirmarse en el futuro con una base de da-

tos mayor a la utilizada, y con aplicaciones que van mas alla de una tarea de clasificacion de

craneos.

Capıtulo 4

Clasificacion de tejido tumoral en

gliomas del tallo cerebral en infantes

4.1. Introduccion

Los gliomas del tallo cerebral (BSG por sus siglas en ingles) son neoplasias con gran morbilidad,

de difıcil abordaje quirurgico por su patron infiltrativo y heterogeneo [39]. El tallo cerebral es la

parte del cerebro conectada a la medula espinal. Este se ubica en la seccion inferior del cerebro,

justo por encima de la base del cuello (Figura 4.1). Es ruta de comunicacion del cerebro con

la medula espinal y los nervios perifericos. Controla varias funciones autonomas, incluyendo la

respiracion, regulacion del ritmo cardıaco, la digestion de alimentos, la circulacion sanguınea,

entre otras.

Figura 4.1: El tallo cerebral (azul) controla las actividades que el cuerpo hace automatica-mente.

50

Capıtulo 4. Glioma del tallo cerebral 51

Los sintomas del BSG infantil varian y a menudo dependen de la edad y de la localizacion

del tumor. Algunos de los sıntomas pueden ser: la perdida del equilibrio, problemas visuales

y auditivos, dolor de cabeza matinal o dolor de cabeza que desaparece despues de vomitar,

somnolencia inusual, entre otros [39].

Figura 4.2: Imagen de RM de un paciente con glioma de tallo cerebral (flecha roja) .

Los tumores del tallo cerebral se consideran entre los mas agresivos de las neoplasias en la

poblacion pediatrica (Figura 4.2); representan entre el 8 % y el 10 % de las neoplasias del sistema

nervioso central [40]. La sobrevida de los pacientes difiere segun la localizacion del tumor. A

pesar de que el cancer es poco frecuente en ninos, los tumores cerebrales constituyen el tipo mas

comun de cancer en la infancia ademas de la leucemia o el linfoma [41].

La causa de la mayorıa de los tumores cerebrales en la infancia es desconocida. Algunas de

las herramientas que se utilizan para detectar y diagnosticar el BSG infantil, son imagenes

obtenidas con equipos de TC, espectrocopıa y RM. Estas ultimas, proporcionan informacion

mas detallada respecto a la anatomıa y de las caracterısticas del tumor. Las imagenes de RM,

son imprescindibles para definir la region cerebral sobre la que se asienta el tumor.

El tratamiento para el BSG depende de las caracterısticas del tumor. La estadificacion es el

proceso que se utiliza para determinar cuanto cancer hay y si el cancer se ha diseminado. La

importancia de conocer el estado del tumor es indispensable para determinar el tratamiento

a seguir. Desafortunadamente, no se dispone de un sistema de estadificacion estandar para el

BSG. El tratamiento depende del tipo de tumor, si este es difuso o focal. Cuando el tumor es

difuso, es un tumor que se ha diseminado de manera generalizada en el tronco encefalico. En

los tumores intrınsecos de tipo difuso, la sobrevida del paciente, en promedio es menor a un ano

despues de que se detecta el tumor [42]. Si el tumor es focal, se realiza una biopsia mediante la

remocion de parte del craneo y se emplea una aguja para extirpar el tejido danado.

Existen diferentes tipos de tratamiento para ninos con BSG, algunos son estandar. Elegir el

tratamiento mas adecuado es una decision que idealmente incluye al paciente, familia y equipo


de atencion medica. El tratamiento del paciente es supervisado por oncologos, neurocirujanos,

neurologos, entre otros especialistas.

Algunos de los tratamientos para combatir el cancer incluyen la radioterapia y la quimioterapia.

Estos tratamientos tienen como funcion, impedir la reproducion de las celulas cancerosas. La

radioterapia y la quimioterapia son tratamientos agresivos y tienen una gran limitacion; su escasa

especifidad afectando otras celulas y tejidos normales. Algunos de los efectos secundarios son;

la caıda del cabello, anemia, hemorragias, diarrea, entre otras secuelas graves. Se han observado

efectos debilitantes en el crecimiento y el desarrollo neurologico en pacientes con BSG despues de

las terapias, especialmente en ninos. Estos tratamientos benefician temporalmente a la mayorıa

de los pacientes, sin embargo, mas del 90 % sucumben ante la enfermedad en poco tiempo. Por

esta razon, se buscan alternativas medicas para reducir el numero de sesiones que se les da a los

pacientes y conjuntamente, metodologıas cualitativas que permitan definir con mayor precision

el area del tejido afectado por BSG.

4.2. Problematica

La mayorıa de los tumores del tallo cerebral son de tipo difuso [42] y suelen diagnosticarse sobre

la base de hallazgos clınicos y por medio de estudios de imagenes neurologicas. Con frecuencia

se observa una gran variabilidad histologica en un solo tumor.

Las imagenes medicas, permiten visualizar el estado del tumor, sin embargo, cuando el tumor

es difuso difıcilmente se puede notar el contraste entre el tejido sano y el tejido afectado. Lo

anterior, debido a que los niveles de gris son mas homogeneos en zonas con diferentes tejidos.

Las dos imagenes a la derecha en la Figura 4.3 muestran un corte en el que se aprecia el tejido

infiltrativo en el tallo cerebral. En las imagenes se observa claramente el tejido afectado por la

neoplasia.

Figura 4.3: Imagenes del tallo cerebral obtenidas con RM. La primer imagen es de tejido sanomientras que en las 2 ultimas hay presencia de BSG. En la segunda imagen se puede intentardelimitar el tumor mientras que en la tercera se vuelve una tarea complicada debido a que eltumor no esta bien definido en su forma, a simple vista no se puede distinguir facilmente entre

el tejido sano y afectado.


A la fecha, existen pocas herramientas de analisis exploratorio y cuantificacion que permitan

hacer una discriminacion confiable entre tejido sano y tejido canceroso en pacientes con BSG.

En la practica clınica el medico realiza su interpretacion utilizando criterios subjetivos sobre

la base de la visualizacion de las imagenes neurologicas. La carencia de metodos cuantitativos

para caracterizar tejido tumoral en el tallo cerebral ha impedido el desarrollo de metodos para

tratar de manera eficiente y segura a pacientes afectados.

4.2.1. Objetivo

En este capıtulo se explora una metodologıa que caracteriza la textura del tejido en el tallo

cerebral en terminos de descriptores simbolicos calculados a partir de imagenes de RM tipo

T2. La idea es utilizar dichos descriptores para construir clasificadores de tejido sano y tejido

afectado por glioma del tallo cerebral. El objetivo especıfico de este capıtulo es el siguiente:

1. Dada una base de datos de imagenes T2 de RM de tallo cerebral y cerebelo obtenidas en ninos

que padecen BSG y controles normales desarrollar, descriptores simbolicos de textura para

construir clasificadores que discriminan tejido sano y tejido afectado por glioma.

4.3. Contribuciones

En este capıtulo mostramos que los descriptores de textura (caracterısticas SIFT) que se utilizan

con mucho exito en el procesamiento de imagenes naturales ofrece un desempeno pobre en el

analisis de imagenes de resonancia magnetica (T2).

4.4. Metodologıa

En esta seccion se describe nuestra metodologıa para caracterizar tejido afectado por BSG con

base en imagenes T2 de RM (ver seccion 2.6). Tambien describimos detalladamente la fuente y

metodos de preprocesamiento de los datos de las imagenes de BSG.

4.4.1. Imagenes de resonancia magnetica

En este trabajo todos los descriptores de textura se calculan a partir de regiones de interes en

imagenes T2 de RM (ver seccion 2.6 del capıtulo 2). Para estandarizar las mediciones se utilizan

vistas laterales calibradas de reconstrucciones tridimensionales del cerebro. Los descriptores de

textura se calculan a partir de imagenes que se ubican en un plano trazado en forma paralela


Figura 4.4: Los dercriptores simbolicos de textura presentados en este trabajo se calculana traves de imagenes de resonancia magnetica que se seleccionan en terminos de referencias

anatomicas bien definidas.

a la base del craneo a la altura de los canales auditivos. El plano correspondiente a la base del

craneo se calcula como se hizo en la seccion 3.5.2 del capıtulo 3 (Figura 4.4).

Figura 4.5: Imagenes T2 de RM. La primera es de un paciente sano donde la zona de interesabarca el tallo cerebral y el cerebelo. La segunda imagen es de un paciente con BSG. La zona

de interes cubre el tejido afectado por el tumor.

En el caso de imagenes de pacientes con BSG, la region de interes se segmenta manualmente

para aislar la region anatomica que corresponde al tumor. En imagenes de pacientes sanos, la

region de interes se identifica con el tallo cerebral y el cerebelo (Figura 4.5). Para seleccionar las

regiones de interes, se calcularon mascaras de forma semiautomatica como las que se muestran

en la Figura 4.6. Una mascara es una imagen binaria util para para separar el objeto de interes

respecto del resto de los componentes de la imagen.

Figura 4.6: Mascaras utilizadas para seleccionar las regiones de interes de las imagenes de laFigura 4.5.


4.4.2. Propuesta metodologica

La carencia de metodos cuantitativos que permitan caracterizar tejido sano del tejido enfermo en

imagenes de RM del tallo cerebral, han motivado el desarrollo y el uso de descriptores simbolicos

de textura (DST). En esta seccion se presenta el algoritmo para clasificar tejido afectado por

BSG.

El proceso consta de dos etapas. En la primera se preprocesan las imagenes y en la segunda

etapa se realiza la tarea de clasificacion de tejido. En los algoritmos propuestos se hace referencia

al nombre de la funcion que se implementa en el paso especıfico en la tabla del pseudocodigo.

El nombre de la funcion se anota en italicas y entre parentesis, con el objeto de simplificar la

presentacion del pseudocodigo.

4.4.2.1. Preprocesamiento de las imagenes

Entrada: a) Un grupo de imagenes que se divide en dos subconjuntos: imagenes de pa-

cientes afectados por BSG IA = {I1, I2, . . . , Iu} e imagenes de pacientes sanos IS =

{I1, I2, . . . , Iv}. Las imagenes se ubican en un plano trazado en forma paralela a la ba-

se del craneo a la altura de los canales auditivos (seccion 4.4.1). El conjunto total de

imagenes I = IA⋃IS , tiene cardinalidad |I| = u + v, b) Un conjunto de mascaras

M = {M1, . . . ,Mu,Mu+1, . . . ,Mu+v} de las imagenes en I con las que se limita la zo-

na de interes en cada imagen (Figura 4.6), c) Parametro c cuyo significado se describe en

las secciones que siguen.

Salida: Regiones R∗ y bolsas de rasgos BR∗. Ambos conjuntos de cardinalidad D. Ademas

el diccionario de rasgos de texto DRT .

1. Extraccion de caracterısticas SIFT (CalculaSIFT ): Para cada imagen en I se aplica

la transformada SIFT (Scale Invariant Feature Transform). El resultado es el conjunto de

caracterısticas SIFT.

La transformada SIFT fue propuesta por David Lowe [45]. Fue inicialmente desarrollada

para aplicaciones de reconocimiento de objetos en una imagen [46]. El proceso para extraer

caracterısticas SIFT se resume en dos partes:

a) Extraccion de puntos de interes: Se extraen puntos de interes de la imagen a

partir de una diferencia de gaussianas (DoG) a diferentes escalas. Los puntos de

interes son resultado de una busqueda de extremos (maximos y mınimos locales) en

un espacio de escalas construido a partir de diferencias de gaussianas.

b) Calculo de descriptores para los puntos de interes: Cada punto de interes,

se representa por un descriptor, que es un vector de dimension 128. El descriptor,


se calcula a partir de los gradientes de la imagen en un entorno local del punto.

El descriptor es invariante a traslacion, rotacion y escala. Tambien es parcialmente

invariante a cambios en la iluminacion y punto de vista.

El par formado por un punto de interes de la imagen y su descriptor correspondiente se de-

nomina caracterıstica SIFT del punto de interes. El conjunto de caracterısticas de puntos

SIFT de la i-esima imagen en I se identifica como CSi = {SIFTi1, SIFTi2, . . . , SIFTin},donde n es el numero de puntos de interes que arrojo la transformada SIFT. La j-esima ca-

racterıstica de la i-esima imagen se define como SIFTij = {puntoDeInteresij , descriptorij}.El conjunto de caracterısticas SIFT de las imagenes en I es CS = {CS1, . . . , CSu, CSu+1, . . .

, CSu+v}.

Para cada imagen en I, la transformada SIFT se aplica en las zonas de interes definidas

por las mascaras en M . En la Figura 4.7, se marcan los puntos de interes en los que se

calcula la transformada SIFT (simbolos +).

Figura 4.7: Posiciones en los que se calcula la transformada SIFT con el algoritmoimplementado por David Lowe de las imagenes de la Figura 4.5.

En el apendice B, se describe con mayor detalle el proceso para calcular los SIFT en

una imagen. Li Fei-Fei [47], presenta un modelo generativo para reconocer objetos en

una escena usando los SIFT para caracterizar objetos. En esta propuesta se utilizo un

algoritmo similar al de [47] para caracterizar tejido del tallo cerebral y el cerebelo.

2. Asignacion de etiquetas simbolicas a los puntos de interes (AsignaEtiquetaSimboli-

ca): Etiquetas simbolicas se asignan a los puntos de interes que se calcularon con la

transformada SIFT para cada una de las imagenes. Las etiquetas simbolicas se obtienen

aplicando el algoritmo de k-means a todos los descriptores (descriptorij) del conjunto CS.

Recuerdese ademas que cada descriptor es un vector de 128 dimensiones. El numero de

centros del algoritmo k-means es el parametro c seleccionado por el usuario (Figura 4.8).

Para la i-esima imagen en I, las etiquetas simbolicas resultantes se agrupan en el conjunto

TSi = {ei1, ei2, . . . , ein}, en donde eij corresponde a la etiqueta asociada al descriptor

del punto de interes SIFTij ∈ CSij , y en donde ni es el numero de elementos en CSi.

Definimos TS = {TS1, . . . , TSu, TSu+1, . . . , TSu+v}.


**

*

*3

1 2

4

6

5

* **

*

*

*

b b

cb

a

c

*

5 3 7 . . . 3 2

1 5 7 . . . 9 1

9 1 1 . . . 7 1

6 2 7 . . . 1 9

7 3 7 . . . 5 5

6 8 7 . . . 1 1*5

4

3

2

1

6

1 2 ... 128

2

2

3

2

1

3

a

b

c

b

b

c

Descriptor k−means Asigna etiqueta simbólica

Figura 4.8: De izquierda a derecha: Los (∗) en la imagen senalan la posicion de puntos deinteres calculados con la transformada SIFT y sus correspondientes descriptores (vectorde dimension 128). El algoritmo de k-means se aplica a todos los descriptores de todaslas imagenes en I. El resultado es un conjunto de k clusters que se utilizan para etiquetasa los descriptores. En este ejemplo del juguete hay 3 clusters etiquetados como a, b y c.

3. Subdivision de imagenes utilizando segmentacion con granularidad fina (Divi-

deRegiones): Cada imagen en I se segmenta utilizando el algoritmo descrito en [44]. El

conjunto de regiones producto de la segmentacion para la i-esima imagen se denota como

Ri, donde Ri = {Ri1, Ri2, . . . , Ril}, Rij es la j-esima region de la i-esima imagen en I, y l

es el numero de regiones que arrojo el algoritmo de segmentacion para la i-esima imagen.

Definimos R = {R1, . . . , Ru, Ru+1, . . . , Ru+v}.

a) Algoritmo de segmentacion [44] (SobreSegmentaImagen): Una imagen se repre-

senta en terminos de un grafo G = (V,E) no dirigido con nodos υi ∈ V (pixeles de la

imagen) y aristas e(υi, υj) ∈ E que conectan los nodos (pixeles vecinos). Cada arista

tiene un peso w((υi, υj)). El peso, es una medida de similaridad entre dos nodos υi y

υj . En la Figura 4.9, se ilustra un ejemplo de la representacion de una imagen como

un grafo no dirigido, los pesos son el resultado de promediar los niveles de gris entre

2 nodos conectados. Una segmentacion, es la agrupacion de un subconjunto de nodos

1 2 3

654

7 98

56 123.5

83 115.5

22 117 122

103.5 162.5 132

183 179

0 112 135

44 109

163 203 155

122

Figura 4.9: En la izquierda se presenta una imagen de dimension 3 × 3 en escala degrises, por el centro se muestran los niveles de gris asociados a la imagen y finalmente enla parte derecha el grafo no dirigido correspondiente a la imagen el cual esta compuestopor υ = 9 nodos y 12 aristas. La medida de similaridad es el promedio de los niveles de

gris entre 2 nodos vecinos.

como se ilustra en el ejemplo de la Figura 4.10.


��

��

��

��

��

��

1 2 3

654

7 98

r r

r

1 2

3

Figura 4.10: Segmentacion de una imagen en 3 regiones r1, r2, r3. Los elementos de cadaregion son: r1 = {υ1, υ4}, r2 = {υ2, υ3, υ5, υ6, υ9} y r4 = {υ7, υ8}.

La segmentacion se aplica solo en las zonas de interes de cada imagen en I definidas por

las mascaras M . En la Figura 4.11, se muestra la segmentacion de las imagenes de la

Figura 4.5.

Figura 4.11: Segmentacion de las zonas de interes de las imagenes de la Figura 4.5. Seusa el algoritmo de Pedro F. Felzenszwalb.

4. Construccion de bolsas de rasgos de textura (ConstruyeBRTs): La entrada de este

proceso son TS y R. La salida es el conjunto de bolsas de rasgos de textura BRT . Los

elementos de BRT forman el conjunto {BRT1, . . . , BRTu, BRTu+1, . . . , BRTu+v}. Para

la i-esima imagen en I se construye un conjunto de bolsas de rasgos como BRTi =

{BRTi1, BRTi2, . . . , BRTil}, l es igual al numero de regiones en la i-esima imagen en I.

El numero total de bolsas de rasgos de textura para la i-esima imagen es igual al numero

de regiones en las que se segmento esta; es decir, el numero de elementos en Ri. La j-esi-

ma bolsa de la i-esima imagen, BRTij , se construye agrupando las etiquetas simbolicas

correspondientes a los puntos de interes que se localizan dentro de la la j-esima region Rij(Figura 4.13). El ejemplo de juguete de la Figura 4.12 ilustra el proceso de construccion

de las bolsas de rasgos de textura.

5. Concatena los elementos en R y BRT (AgrupaRyBRT ): Los elementos en R∗ =u+v⋃i=1

Ri resultan de concatenar todas las regiones generadas de las imagenes en I. BRT ∗ =

u+v⋃i=1

BRTi es la concatenacion de las bolsas de rasgos de las imagenes en I. El operador⋃se ilustra con un ejemplo sencillo. Sean R1 = {R11, R12} y R2 = {R21, R22, R23},


*

**

*

*

*

b b

cb

a

c

r1

r r2 3

BR1

BRBR2 3

=b =b c b = =c a= 13 211 12 1 =3 12 3eeeee e

Figura 4.12: Construccion de las bolsas de rasgos de una imagen. La imagen se divideen 3 regiones. Las etiquetas simbolicas asociadas a cada region dan forma a las bolsasde rasgos. Las bolsas de rasgos de este ejemplo son: BR1 = {b, b, c}, BR2 = {b} y

BR3 = {c, a}.

Figura 4.13: Regiones generadas con el algoritmo de Felzenszwalb, el simbolo + repre-sentan la localizacion de las caracterısticas SIFT. Las primeras dos imagenes son de tejido

sano, mientras que las dos ultimas son de tejido afectado por BSG.

entonces R1⋃R2 = {R11, R12, R21, R22, R23} = {R∗1, R∗2, R∗3, R∗4, R∗5}. La cardinalidad de

R∗ y BRT ∗ es D, con D =u+v∑i=1|Ri|.

6. Obtencion del diccionario de rasgos de textura (DiccionarioRasgosTextura): El dic-

cionario de rasgos de textura DRT esta formado por las c etiquetas simbolicas calculadas

con el algoritmo k-means.

El algoritmo descrito en el proceso anterior para generar las regiones y las bolsas de rasgos de

las imagenes se resume en el Algoritmo 5.

Algorithm 5 Pre procesamiento de las imagenes1: Entrada: IA, IS , M , c2: Salida: R∗, BRT ∗

3: CS = CalculaSIFT(IA, IS , M)4: TS = AsignaEtiquetaSimbolica(CS, c)5: R = DivideRegiones(IA, IS , M)6: BRT = ConstruyeBRTs(TS, R)7: [R∗, BRT ∗] = AgrupaRyBRT(R, BRT )8: DRT = DiccionarioRasgosTextura(c)


4.4.2.2. Clasificacion de tejido

El algoritmo para clasificar tejido sano vs tejido afectado por BSG es como sigue:

Entrada: a) El conjunto de regiones R∗ de cardinalidad D. El conjunto R∗ se divide en

dos subconjuntos: regiones de entrenamiento R∗E = {R∗1, . . . , R∗D−1} y region de prueba

R∗P = {R∗D}. Las regiones en R∗E estan identificadas como regiones de tejido sano (0)

o regiones de tejido afectado por BSG (1). b) El conjunto de bolsas de rasgos BRT ∗

asociadas a las regiones del conjunto R∗. c) El diccionario de rasgos de textura DRT .

Otros parametros del algoritmo son; nciclosBootstrap, α∗ y ν. El significado de estos

parametros se describe en los parrafos que siguen.

Salida: Etiqueta de la region en R∗P .

1. Calculo de la matriz de concurrencia de textura (MatrizConcurrenciaTextura): En

este paso se construye una matriz que codifica la concurrencia de los rasgos del DRT en

las BRTs∗ [27]. Los elementos de la matriz almacenan el numero de veces (frecuencia)

que los rasgos aparecen en cada bolsa de rasgos. A esta matriz se le conoce como matriz

de concurrencia de textura (MCT ). Los renglones de la MCT corresponden en nuestro

trabajo a las BRT ∗ y las columnas representan los rasgos que constituyen el DRT . La

MCT es de dimension D×|DRT |. En la Figura 4.14 se presenta la matriz de concurrencia

de las regiones de tejido sano y la matriz de concurrencia de las regiones de tejido afectado

por BSG. La ultima grafica de la Figura 4.14, resulta del calculo de la diferencia numerica

de las primeras dos imagenes.

Tejido sano

20 rasgos

2512

bol

sas

de r

asgo

s

2 4 6 8 10 12 14 16 18 20

500

1000

1500

2000

2500

Tejido afectado por BSG

20 rasgos

1204

3 bo

lsas

de

rasg

os

2 4 6 8 10 12 14 16 18 20

2000

4000

6000

8000

10000

120002 4 6 8 10 12 14 16 18 20

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Palabras

Dif

eren

cia

error = 2.2866

Figura 4.14: De izquierda a derecha: MCT de tejido sano, MCT de tejido afectado porBSG y grafica que refleja la diferencia de las matrices presentadas en los primeros dos

cuadros de esta figura.

2. Seleccion de variables para construir la matriz de concurrencia reducida (Ma-

trizConcurrenciaReducida): La entrada a este proceso es la matriz de concurrencia de

textura calculada en el paso anterior. La salida del proceso es la matriz reducida de con-

currencia de textura (MCRT) que se construye utilizando un diccionario de rasgos reducido


(V ). Este diccionario solo contiene rasgos que diferencian el tejido sano del tejido afectado

con BSG. Todos aquellos rasgos que son significativos constituyen el V . El diccionario de

rasgos reducido, se define como

V = VA⋃VS , (4.1)

en donde A y S representan las clases de tejido afectado y tejido normal, respectivamente.

El algoritmo de seleccion de variables se divide en dos fases:

Muestreo Bootstrap (MuestreoBootstrap): Se generan estadısticos que caracterizan

la hipotesis nula, es decir, la hipotesis que sugiere que no hay diferencias significativas

entre los rasgos de las dos clases. Esta fase utiliza el algoritmo bootstrap para estimar

empıricamente las distribuciones de la hipotesis nula. El bootstrap se aplica sobre el

conjunto de diferencias que existen entre la MCT de las regiones de tejido sano y

la MCT obtenida de las regiones de tejido afectado por BSG. La metodologıa para

generar el estadıstico es el mismo que se describe en el Algoritmo 2 del capıtulo

3, donde los parametros de entrada de este algoritmo son las bolsas de rasgos de

las clases A y S. La salida de este algoritmo es; una matriz de DTAB de dimension

nciclosBootstrap× (|A|+ |B|), y los conjuntos de rasgos RTA y RTB de las clases A

y S.

Selecciona rasgos (SeleccionaRasgos): Se ejecuta una prueba de hipotesis con un

nivel de confianza α∗ para determinar que rasgos del DRT reflejan diferencias signi-

ficativas entre las dos clases. El proceso para determinar la significancia es el mismo

que se realiza en el Algoritmo 3 del capıtulo 3. La entrada a este algoritmo son

DTAB, RTA y RTB obteniendo el diccionario de rasgos reducido V .

Una vez determinados los elementos de V , se genera la MCRT de la misma manera como

se describe en paso anterior.

3. Construccion de los clasificadores con maquinas de soporte vectorial (Entrena-

Clasificador): Los clasificadores de formas craneales se construyen por medio de maquinas

de soporte vectorial tipo ν (ν-SVMs por sus siglas en ingles). Los clasificadores se en-

trenaron con los renglones de la matriz de MCRT del conjunto de entrenamiento. Las

maquinas de soporte vectorial se construyen con el kernel de base radial (RBF).

KRBF (xi, xj) = e−γ‖xi−xj‖2, con γ > 0 (4.2)

.

El Algoritmo 6 resume la metodologıa descrita para construir clasificadores de textura deriva-

dos de descriptores simbolicos de textura. Todos los parametros libres del modelo ( c, ν y α∗)

se calculan por medio de metodos de validacion cruzada.


Algorithm 6 Clasificacion de textura1: Entrada: R∗E , R∗P , BRT ∗, DRT , nciclosBootstrap, α∗, ν2: Salida: Etiqueta de la region de prueba.3: MCTE = MatrizConcurrencia(BRT ∗E , DRT )4: MCTP = MatrizConcurrenciaTextura(BRT ∗P , DRT )5: MCRTE = MatrizConcurrenciaReducida(MCTE , nciclosBootstrap, α∗)6: MCRTP = MatrizConcurrenciaReducida(MCP , nciclosBootstrap, α∗)7: f = EntrenaClasificador(MCRTE , ν)8: NuevaEtiqueta = f(MCRTP )

4.4.3. Segmentacion de BSG en imagenes T2

En esta seccion se presenta una metodologıa para segmentar tejdo afectado por BSG en imagenes

T2 de RM. La idea basica es utilizar el LDA (Apendice A) para caracterizar texturas similares

en las imagenes, utilizando como medida de similitud los topicos que arroja el algoritmo LDA

a partir de la matriz reducida de concurrencia.

El algoritmo es como sigue:

Entrada: Conjunto de regiones R∗ de cardinalidad D y la matriz de concurrencia reducida

de textura MCRT de R∗. Parametros del modelo LDA α y β. Numero de topicos K.

Salida: Topicos asociados a las regiones en R∗ .

1. Estima la distribucion de los topicos en las bolsas de rasgos de las regiones

usando el modelo generativo LDA (Estimaz): El modelo generativo LDA ( apendice

A) representa la bolsa de rasgos de las regiones de tejido como mezclas probabilısticas

de topicos. Los parametros a estimar de este modelo son z, θ y φ dados K y x = {xij},en donde i = 1, . . . , Nj ; e j = 1, . . . , D; Nj es el numero de rasgos de la j-esima region.

Para estimar estos parametros se utiliza un metodo Montecarlo de cadenas de Markov. El

parametro que nos interesa es la distribucion de los topicos z en la MCRT de las regiones

de tejido.

2. Asigna topicos a las regiones en R∗ usando z (AsignaTopicos): Con la distribucion

de z se asigna el topico a las regiones en R∗.

Algorithm 7 Asignacion de topicos a las regiones de textura1: Entrada: R∗, MCRT , α, β, K2: Salida: Topico asignado a los elementos en R∗.3: z = Estimaz(MCRT , α, β, K)4: AsignaTopicos(R∗, z)


4.4.4. Muestra poblacional

La muestra poblacional para el analisis de textura se compone de 122 imagenes T2 de resonancia

magnetica. Los estudios son de infantes que padecen BSG y de pacientes sanos cuyas edades

oscilan entre los 3 y 14 anos de edad. Las mediciones fueron registradas antes de que los pacientes

fueran sometidos a tratamientros para tratar el BSG. Se tienen 45 imagenes BSG y 67 imagenes

de pacientes sanos. Los estudios de RM, provienen de una base de datos del Children’s National

Medical Center, Washington D. C.

4.5. Resultados

4.5.1. Clasificacion de textura con el diccionario de rasgos reducido (Algo-

ritmo 6)

Los resultados de clasificacion del Algoritmo 6 se presentan en la Figura 4.15. En la tabla se

observa que el algoritmo de clasificacion tiene un desempeno pobre, a pesar de que los resultados

de la seleccion de variables sugerian que existen diferencias significativas entre los rasgos que

caracterizan a las dos diferentes clases de tejido. Los valores de los parametros del algoritmo se

variaron en los rangos del Cuadro 4.1. Los valores de ν y γ que utilizamos en los experimentos

son los propuestos por Chih-Wei [48]. Los resultados no cambiaron aun cuando se hicieron

pruebas variando el tamano del diccionario de rasgos (c). En la Figura 4.16 se observa que con

60 etiquetas el numero de rasgos de textura que codifican diferencias significativas son 22.

La grafica de la Figura 4.17 muestra que el tamano de las regiones segmentadas con el algo-

ritmo de Felzenswalf es proporcional al numero de caracterısticas SIFT que se localizan dentro

las regiones. Tomando como referencia los resultados de la grafica, se realizaron experimentos

variando la granularidad de las regiones generadas en cada imagen con el objeto de variar el

numero de descriptores SIFT en cada region. Sin embargo, las tasas de clasificacion obtenidas

son semejantes a las presentadas en la Figura 4.15.

Parametro Rango Total de valores

c 20, 40 2ν 0.000005, 0.00007, 0.00001, 0.0005, 0.0008, 0.001, 0.005 7γ 0.055, 0.06, 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9 11α∗ 0.05 1

Cuadro 4.1: Rangos de los parametros en el espacio de busqueda: numero de centros para k-means (c), nivel de significancia para obtener la matriz de concurrencia reducida α∗ y parametros

del kernel (ν, γ).


KRBF

S A

1 S 71.84 28.16A 76.88 23.12

2 S 42.1 57.9A 76.88 23.12

3 S 61.32 38.68A 66.59 33.41

4 S 69.87 30.13A 73.33 26.67

5 S 49.65 50.35A 48.91 51.09

6 S 52.79 47.21A 53.29 46.71

7 S 56.31 43.69A 53.5 46.5

8 S 43.93 56.07A 42.24 57.76

error γ ν c

1 0.6954 0.0005 0.6 202 0.4470 0.06 0.001 203 0.5262 0.8 0.0005 204 0.6683 0.5 0.001 205 0.4914 0.85 0.0005 406 0.5232 0.9 0.0005 407 0.5193 0.6 0.0008 408 0.4445 0.5 0.005 40

error de clasificacion,parametros de la SVM (γ y ν),

numero de centros para k-means (c).

Figura 4.15: Matrices de confusion ( %): tejido sano (S) y tejido afectado por BSG (A). Resul-tados de la implementacion del Algoritmo 6. La tabla de la derecha, contiene los parametros

de las matrices de confusion de la primer tabla.

4.5.2. Segmentacion de BSG usando el Algoritmo 7

El analisis detallado de la matriz de coocurrencia reducida utilizando los metodos de la seccion

3.5.7 sugirieron que los descriptores simbolicos de textura se podian segregar en alrededor de 20

tipos diferentes. Este numero se calculo a partir de la informacion en la grafica de la Figura 4.18.

Los resultados sugieren que la segmentacion de tumor utilizando esta metologıa, es ineficaz.

En la Figura 4.19 se muestran dos imagenes de tejido afectado por BSG (primer columna) y a

la derecha las regiones generadas con el algoritmo de Felzenszwalb. Los topicos asignados a las

regiones de la Figura 4.19 con el modelo LDA se muestra en las Figuras 4.20 y 4.21. En estas

imagenes se usaron valores de K en [3, 5, 10, 21]. Los valores de K = [10, 21] se consideraron por

ser los maximos alcanzados en la grafica de la Figura 4.18.

4.6. Discusion y conclusiones

En este capıtulo se desarrollo un algoritmo para clasificar tejido sano vs tejido afectado por

glioma en el tallo cerebral y cerebelo. Los resultados sugieren que la metodologıa propuesta no

es eficaz para discriminar entre tejido sano y tejido afectado por BSG. Aqui se sugieren algunas

causas probables por las cuales el algoritmo no es eficiente.


2 4 6 8 10 12 14 16 18 20

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

e = 20

α = 0.05

5 10 15 20 25 30 35 40

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

e = 40

α = 0.05

10 20 30 40 50 60

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

e = 60

α = 0.05

0 50 100 1506

8

10

12

14

16

18

20

22

Etiquetas

Ele

men

tos

sign

ific

ativ

os

Figura 4.16: Calculo de las palabras significativas variando el numero de etiquetas utilizadasen k − means (e). Las etiquetas que estan por debajo de la lınea punteada son las palabrasque se consideran significativas usando α = 0.05. La ultima grafica (segundo renglo, segundacolumna) muestra la relacion entre el numero de etiquetas y el numero de palabras significativas

obtenidas con cada una de estas

0 200 400 600 800 1000 12000

20

40

60

80

100

120

140

160

Tamaño de la región

Núm

ero

de S

ifts

Figura 4.17: Relacion entre el tamano de la region y el numero de caracterısticas SIFT loca-lizadas en cada region. En esta grafica se incluyen regiones de tejido sano y regiones de tejido

afectado por BSG.

El numero de muestras representativas de tejido sano y tejido enfermo pueden no ser sufi-

cientes en relacion a la variabilidad intrinseca de las imagenes T2 de RM y la variabilidad

morfologica del tejido que existe en las diferentes poblaciones de sujetos.

Las caracterısticas SIFT han sido utilizadas con gran exito en una gran variedad de ta-

reas de vision computacional. Sin embargo, nuestros resultados sugieren que estos rasgos

calculados en imagenes T2 de RM no son efectivos.


0 10 20 30−2.5

−2

−1.5

−1

−0.5x 10

5

K

log

p(x;

K)

Matriz reducida

Figura 4.18: Logaritmo de la verosimilitud como una funcion del numero K de topicos conα = 50 y β = 1, calculada para una matriz de concurrencia similar a las de la Figura 4.14. Lamatriz incluye las dos clases de tejido de la muestra poblacional. El error estandar de los puntos

calculados es menor que el tamano de los sımbolos sombreados.

Figura 4.19: Division de las imagenes de la primera columna usando el algoritmo de Pedro F.Felzenszwalb (imagenes de la segunda columna). Las imagenes son de tejido afectado por BSG.

Las caracterısticas SIFT estan intimamente relacionadas con operadores de extraccion de

textura. Esto significa, que las caracterısticas SIFT no son capaces de caracterizar texturas

en imagenes de T2 de RM, al menos en lo que se refiere al tallo cerebral y el cerebelo.

Los descriptores simbolicos de textura utilizan un modelo de bolsas de rasgos para cara-

cerizar la morfologıa del tejido sano o afectado por BSG. Un problema potencial en esta

representacion, es que no se preserva la relacion espacial que existe entre las regiones que


Figura 4.20: Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primera columna se

usa K = 3 y en la segunda K = 5.

genera el algoritmo de segmentacion de alta granularidad. Dicha correlacion puede ser

importante para que sea posible caracterizar apropiadamente la textura.

A pesar de que los resultados no son positivos, si sugieren nuevas lıneas de estudio que pueden

requerir el uso de las distribuciones de probabilidad conjuntas en vez de distribuciones marginales

de probabilidad como las que se utilizan implicitamente en las caracterısticas SIFT y otros tipos

de filtros de textura.


Figura 4.21: Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primera columna se

usa K = 10 y en la segunda K = 21.

Capıtulo 5

Conclusiones

En este trabajo exploramos la aplicacion de modelos simbolicos de forma para caracterizar

cuantitativamente formas anatomicas. Las aplicaciones se realizaron en dos problemas medicos

distintos. En primer lugar, se caracterizo la morfologıa de craneos afectados por craneosinostosis

primaria, con el objeto de discriminar las distintas malformaciones craneales. En segundo lugar,

se estudio el desempeno de los descriptores simbolicos de textura, en una tarea de clasificacion

de tejido sano y tejido tumoral producido por un glioma.

En general, los resultados obtenidos en las dos aplicaciones arrojaron informacion interesante.

En la primera aplicacion fue posible construir clasificadores que producen tasas bajas de error

utilizando descriptores de forma de baja dimensionalidad. En la segunda aplicacion, se pudo

determinar que los descriptores de textura que se utilizan frecuentemente en problemas de vision

computacional y procesamiento de imagenes no son apropiados para el analisis de textura en

tejido cerebral medido en imagenes T2 de RM.

Este trabajo tambien premitio al autor educarse en el area del analisis de imagenes biomedicas,

sus aplicaciones y las limitaciones actuales que existen en relacion a la anatomıa y sus patologıas.

A pesar de que los resultados que se obtuvieron son satisfactorios e interesantes, hay mucho

trabajo que queda por hacer. En general, es necesario validar la significancia estadıstica de los

resultados de clasificacion de craneos. Esto se puede lograr con una base de datos mas grande.

Tambien es necesario validar el algoritmo de seleccion de variables utilizando conjuntos de

entrenamiento y prueba de mayor tamano. Tambien es necesario crear metodos mas eficientes

para sintonizar los parametros de los algoritmos propuestos.

Respecto al analisis y la caracterizacion de tejido tumoral producido por glioma del tallo ce-

rebral, es necesario crear nuevos metodos para crear rasgos de textura que permitan calcular

clasificadores efectivos que generalicen apropiadamente. Los resultados que obtuvimos sugieren

que es necesario moverse en la direccion del analisis de la distribucion conjunta de la informacion

69

Capıtulo 5. Conclusiones 70

de intensidad de la imagen. Tambien es necesario crear bases de datos de imagenes de tejido

cerebral que permitan determinar en forma confiable la significancia estadıstica de los resultados

de clasificacion obtenidos con rasgos novedosos de textura.

Apendice A

Modelos de variables latentes para el

analisis de textos

El aprendizaje de texto y lenguage natural son los desafios de las areas de inteligencia artificial

y maquinas de aprendizaje. Algun progreso substancial en cualquiera de estas areas, tiene un

fuerte impacto en multiples aplicaciones. Uno de los principales problemas es el aprendizaje del

significado de las palabras y el uso de estas en distintos documentos como lo harıa el ser humano

[49]. La deteccion de similitudes a partir de una gran cantidad de contextos textuales permitirıa

construir una teorıa para entende la cognicion verbal humana [50].

Algunos de los terminos mas utilizados en el analisis de texto se definen a continuacion:

Palabra: Unidad basica de datos discretos. Elemento de un vocabulario o diccionario (W ).

Documento: Secuencia de P palabras que pertenecen al vocabulario y se denota por d =

{w1, . . . , wP }, en donde wp es la p−esima palabra en la secuencia.

Corpus: Coleccion de N documentos denotado por D = {d1, . . . , dN}.

Vocabulario: Conjunto deM palabras diferentes que se encuentran en el corpusW = {w1, . . . , wM}.

Topico: Es un concepto sobresaliente en un conjunto de documentos descritos por la frecuencia

de varios terminos. Un topico es una distribucion de probabilidades sobre un conjunto de

palabras.

Mexcla: Asociacion de multiples topicos a una publicacion. A cada topico ti se le asocia un

peso qi. El peso, describe la influencia (presencia) del topico ti en la publicacion.

71

Apendice A. Modelos de variables latentes 72

A.1. Modelos generativos

Los modelos generativos se basan en la idea de que los documentos se pueden representar

como una mezcla de topicos [51]. Estos modelos definen un proceso probabilıstico para generar

un nuevo documento, estableciendo distribuciones sobre los topicos y a su vez, cada topico

establece una distribucion sobre el vocabulario. Las palabras del nuevo documento, se eligen

aleatoriamente de las distribuciones de los topicos (Figura A.1). Distintas distribuciones sobre

los topicos, permiten generar documentos en distintos contextos [53].

a

b

c

d

e

f

a

b

c

d

e

f

a

b

c

d

e

f

1

3

2

Tópicos

Palabras

música

animales

familia

0.2

0.3

0.5

0.1

0.1

0.1

0.1

0.05

0.3

0.05

0.05

0.05

0.05

0.3

0.3

0.5

0.05

0.1

0.1

0.4

0.2

a : guitarra

b : casa

f : violín

c : hogar

d : gato

e : zoológico

Figura A.1: Distribucion de las palabras de un vocabulario en tres topicos. A los topicos seles asocia una distribucion.

Un modelo generativo usa variables aleatorias latentes para describir las palabras en un do-

cumento. Cuando se ajusta un modelo generativo, la meta es encontrar el mejor conjunto de

variables latentes que expliquen los datos observados (palabras en un documento).

Los modelos generativos utilizan una representacion de bolsa de palabras. La bolsa de palabras

contiene la frecuencia de las palabras del vocabulario en cada documento del corpus, ignorando

el orden en que aparecen las palabras. Cada documento en el corpus se representa como un

vector de dimension M . Los elementos del vector contienen las cuentas del numero de veces en

que las palabras del vocabulario aparecen en el documento. Los N vectores de los elementos en


el corpus forman una matriz de dimension N ×M . A esta matriz, tambien se le conoce como

matriz de concurrencia.

El ejemplo de la Figura A.2, ilustra como los topicos se representan con un modelo generativo.

En este ejemplo, hay dos topicos literatura y matematicas, ambos representados como bolsas de

palabras. Las bolsas tienen diferentes distribuciones de palabras. El documento 1 y el documento

2 se generaron con los topicos 1 y 2 respectivamente, mientras que el documento 3 se construye

con la mezcla del topico 1 y el topico 2.

Figura A.2: Generacion de nuevos documentos.

La estructura del modelo no permite que haya exclusividad mutua, es decir, las palabras pueden

aparecer en mas de un topico. De esta manera, una palabra puede tener distintas interpretaciones

en contextos diferentes [54]. Por ejemplo, la palabra irracional (Figura A.2) puede interpretarse

diferente en un texto de literatura que en uno de matematicas.

Los modelos generativos no hacen algun tipo de suposiciones acerca del orden en que aparecen las

palabras en los documentos. El orden, proporciona informacion importante acerca del contenido,

sin embargo, se espera que la informacion contenida en las bolsas de palabras sea suficiente

para hacer inferencias sobre la informacion contenida en los documentos. En estos modelos,


la informacion relevante es el numero de veces que las palabras aparecen en los documentos

(frecuencia).

A.2. Modelos de topicos probabilısticos

Hay una gran variedad de modelos de topicos probabilısticos que se utilizan para analizar el con-

tenido de los docuementos y el significado de las palabras. Todos estos modelos tienen la misma

idea fundamental (un documento es una mezcla de topicos) pero tienen suposiciones estadısti-

cas ligeramente diferentes. Modelos como el PLSA (Probabilistic Latent Semantic Analysis) y

el LDA (Latent Dirichlet Allocation) utilizan estadıstica Bayesiana para inferir los topicos en

un corpus.

Los modelos de topicos probabilısticos asocian los documentos del corpus con algun topico y cada

topico con algun significado de las palabras. La asociacion de un documento d a los topicos se

define formalmente como una distribucion de probabilidad multinomial p(Z|d) sobre la variable

aleatoria Z ∈ topicos que esta condicionada en el documento d. Si un topico z, tiene una alta

probabilidad p(Z = z|d), entonces, el topico se considera relevante en el documento. Entonces,

si un documento es interpretado como una mezcla de topicos, estas probabilidades son los pesos

de las mezcla [51]. Analogamente, la asociacion de un topico z para interpretar el significado de

palabras se define como una distribucion de probablidad multinomial p(W |z). La distribucion

condicional describe la probabilidad de cada palabra en el topico z.

Un modelo de topicos se compone de: a)un conjunto de topicos (Z), b)la distribucion de proba-

bilidad de los topicos (p(z)), c)la distribucion de probabilidad de los topicos dado el documento

(p(z|d)), d)la distribucion de probabilidad de las palabras dado el topico z (p(w|z)), e)la pro-

babilidad de que el topico j sea muestreado para obtener la i-esima palabra (p(zi = j)), y f)la

probabilidad de la palabra wi bajo el topico j (p(wi|zi = j)).

La distribucion de las palabras en un documento se calcula como [53]:

p(wi) =K∑k=1

p(wi|zi = k)p(zi = k) (A.1)

Donde K, es el numero de topicos. La probabilidad p(w|z = j), es la distribucion multinomial

sobre los topicos para el documento d.


A.3. PLSA

El modelo PLSA (Probabilistic Latent Semantic Analysis), es una tecnica estadıstica para el

analisis de datos de concurrencia. El modelo PLSA tiene aplicaciones en recuperacion y filtrado

de informacion, procesos de lenguaje natural, aprendizaje de texto y areas relacionadas. Este

modelo tiene solidos fundamentos estadısticos, esta basado en el principio de verosimilitud. Esto

implica que tecnicas estadısticas puedan ser aplicadas para responder a preguntas referentes al

ajuste del modelo y el control de la complejidad. La representacion del modelo permite explicar

y distinguir los diferentes significados de una palabra en distintos contextos [56].

A.3.1. Aspectos del modelo

La esencia de PLSA es un modelo estadıstico conocido como “aspect mode”. Este modelo usa

variables latentes para generar datos de concurrencia asociados a una variable no observada

z ∈ Z = {z1, . . . , zK} con cada observacion, es decir, la ocurrencia de una palabra w ∈ W =

{w1, . . . , wM} en un documento d ∈ D = {d1, . . . , dN}. El modelo generativo se define como

sigue [54]:

Seleccionar un documento d con probabilidad p(d).

Elegir una clase latente z con probabilidad p(z|d).

Generar una palabra w con probabilidad p(w|z).

Como resultado se obtiene un par (d,w). El modelo grafico se muestra en la Figura A.3 y la

probabilidad conjunta asociada se presenta en la ecuacion A.2.

wzdp(d) p(z|d) p(w|z)

Figura A.3: Modelo generativo p(d,z,w).

p(d, z, w) = p(d)p(z|d)p(w|z). (A.2)

De lo anterior, se puede inferir la distribucion marginal sobre D ×W como sigue;


p(d,w) =∑z

p(d, z, w)

=∑z

p(d)p(z|d)p(w|z)

= p(d)∑z

p(z|d)p(w|z). (A.3)

Con la ecuacion A.3 podemos calcular p(w|d);

p(w|d) =p(w, d)p(d)

=∑z

p(z|d)p(w|z). (A.4)

Se puede reescribir la ecuacion A.3 como;

p(d,w) = p(d)p(w|d). (A.5)

El aspect model es un modelo estadıstico de mezclas que se basa en dos suposiciones de inde-

pendencia:

1. Se asume que el par (d,w) se genera de forma independiente, en esencia, corresponde a lo

que se le conoce como bolsa de palabras.

2. Se asume independencia condicional con respecto a la clase latente z, ademas, w se genera

independientemente del documento d.

El numero de estados es menor al numero de documentos (K � N) por lo que, z actua como

un cuello de botella para predecir w condicionada en d. Note, que p(w|d) se obtiene de una

convinacion convexa de los factores p(w|z). Los documentos son caracterizados por una mezcla

especıfica de factores con pesos p(z|d). Los pesos de estas mezcla son frecuentemente modelados

y conceptualmente diferentes a las probabilidades a priori de los modelos de cumulos.

Una version equivalente del modelo A.5 se obtiene usando la regla de Bayes al invertir la pro-

babilidad condicional p(z|d) como sigue:

p(z|d) =p(d|z)p(z)p(d)

. (A.6)


Por lo que p(d,w) se convierte en;

p(d,w) = p(d)∑z

p(z|d)p(w|z)

= p(d)∑z

p(d|z)p(z)p(d)

p(w|z)

=∑z

p(z)p(w|z)p(d|z). (A.7)

Con A.7 se obtiene un modelo perfectamente simetrico en ambas entidades para los documentos

y las palabras. Este modelo es la version parametrizada del modelo generativo descrito en la

ecuacion A.3 y el modelo grafico es el de la Figura A.4. La distribucion conjunta es define en la

ecuacion A.8.

d z w

p(z)

p(d|z) p(w|z)

Figura A.4: Modelo generativo p(d,z,w) parametrizado.

p(d, z, w) = p(z)p(d|z)p(w|d). (A.8)

Ahora, dado un documeto y una palabra, las posibles combinaciones son:

L =∏d

∏w

p(d,w)n(d,w). (A.9)

Donde n(d,w) corresponde a los elementos de la matriz de concurrencia. Con la ecuacion A.9

obtenemos la funcion de verosimilitud para el modelo de PLSA.

L = ln

(∏d

∏w

p(d,w)n(d,w)

)=∑d

∑w

ln p(d,w)n(d,w)

=∑d

∑w

n(d,w) ln p(d,w). (A.10)


Haciendo uso de A.7 la expresion anterior se convierte en:

L =∑d

∑w

n(d,w) ln p(d,w)

=∑d

∑w

n(d,w) ln

[∑z

p(z)p(w|z)p(d|z)

]

=∑d

n(d)

{ln p(d) +

∑w

n(d,w)n(d)

ln∑z

p(w|z)p(z|d)

}. (A.11)

donde n(d) =∑wn(d,w) y n(d,w) es el numero de veces que ocurre la palabra w en el docu-

mento d. Se busca es estimar los valores de p(d), p(z|d) y p(w|z) que maximicen la funcion de

verosimilitud, sin embargo se deben cumplir las siguientes restricciones;

∑wp(w|z) =

∑wϕwz = 1.

∑zp(d|z) =

K∑k=1

φdz = 1.

∑d

p(d) =∑d

υs = 1.

Para simplificar la notacion, usamos ϕwz, φdz y υs para representar a p(d), p(z|d) y p(w|z)respectivamente. Lo que sigue es aplicar el algoritmo EM para el calculo de las probabilidades

maximizando la funcion de verosimilitud.

A.3.2. Calculo de las probabilidades con EM

Considere el vector de variables latentes Z como un vector binario que se define como sigue;

zdwk =

{1, si el par (d,w) fue generado por el topico k;

0, Otro caso.(A.12)

Entonces, Z es un vector de variables indicadoras. La probabilidad p(z) la podemos escribir de

la siguiente manera;

p(z) =K∏k=1

θzdwkk . (A.13)


Sea, p(zdwk = 1) =K∏j=1

θzdwjj = θzdwkk = θk. Introduciendo las variables latentes dentro de A.11

obtenemos la funcion de verosimilitud completa.

Lc =∏d

∏w

∏z

p(d,w, z)n(d,w)

=∑d

∑w

n(d,w)∑z

ln p(d,w, z). (A.14)

Suponga que se conoce la variable latente que genera cada par (s, w), entonces se puede expresar

la funcion de verosimilitud completa sin la suma sobre todas las variables latentes, unicamente

con el termino que es distinto de cero. Para un valor particular de Z,

p(d,w|z) =p(d,w)p(z)

=p(z)p(d|z)p(w|z)

p(z)

= p(d|z)p(w|z)

=K∏k=1

(ϕwzφdz)zdwk . (A.15)

Con la ecuacion anterior podemos escribir A.8 como sigue,

p(d,w, z) = p(z)p(d,w|z)

=K∏k=1

(ϕwzφdzθk)zdwk . (A.16)

Ademas,

p(z|d,w) =p(d,w, z)p(d,w)

=

K∏k=1

(ϕwzφdzθk)zdwk

p(d,w). (A.17)


Como (d,w) se conocen y p(d,w) es una constante en la ecuacion anterior para un valor particular

de z concluimos que,

p(zdwk = 1|d,w) =p(d,w|zdwk = 1)p(zdwk = 1)K∑j=1

p(d,w|zdwj = 1)p(zdwj = 1)

=[ϕwkφdkθk]zdwkK∑zdwj

[ϕwjφdjθj ]zdwj. (A.18)

Calculando el valor esperado de la expresion anterior,

E[zdwk]z|d,w =

∑zdwk

zdwk[ϕwkφdkθk]zdwk∑zdwj

[ϕwjφdjθj ]zdwj

=ϕwkφdkθk∑

zdwj

[ϕwjφdjθj ]

= γ(zdwk). (A.19)

Con la ecuacion A.19 podemos escribir el valor esperado del likelihood completo (ecuacion A.14).

E[Lc]z|d,w =∑d

∑w

n(d,w)K∑k=1

γ(zdwk) ln[ϕwkφdkθk]. (A.20)

Para optimizar A.14 necesesitamos considerar las restricciones. Para nuestro proposito se usaron

los multiplicadores de lagrange, obteniendo la siguiente expresion;

E[Lc]z|d,w +K∑k=1

τk

[∑w

ϕwk − 1

]+

K∑k=1

ρk

[∑d

φdk − 1

]+ α

[K∑k=1

θk − 1

]. (A.21)

Derivando e igualando a cero obtenemos las ecuaciones para el calculo de los parametros;

∑d

n(d,w)γ(zdwk)− ϕwkτk = 0. (A.22)

∑w

n(d,w)γ(zdwk)− φdkρk = 0. (A.23)


∑d

∑w

n(d,w)γ(zdwk)− θkα = 0. (A.24)

De las ecuaciones anteriores podemos eliminar los multiplicadores de Lagrange usando constan-

tes de normalizacion. Realizando lo anterior, finalmente se obtenienen las ecuaciones que nos

permiten calcular los parametros del modelo PLSA como sigue:

ϕwk =

∑d

n(d,w)γ(zdwk)

τk

=

∑d

n(d,w)γ(zdwk)∑d

∑wn(d,w)γ(zdwk)

. (A.25)

φdk =

∑wn(d,w)γ(zdwk)

ρk

=

∑wn(d,w)γ(zdwk)∑

d

∑wn(d,w)γ(zdwk)

. (A.26)

θk =

∑d

∑wn(d,w)γ(zdwk)

α

=

∑d

∑wn(d,w)γ(zdwk)∑d

∑wn(d,w)

. (A.27)

A.4. LDA

LDA (Latent Dirichlet Allocation) es un modelo generativo probabilıstico que puede usarse para

estimar las propiedades de observaciones multinomiales por aprendizaje no supervizado. En

modelado de texto, LDA es un metodo para el analisis semantico latente, la idea de este analisis

es encontrar estructuras latentes de topicos o conceptos en un conjunto de textos que capture

el significado del texto. El termino analisis semantico latente fue introducido por Deerwester et

al. [57] quien demostro empıricamente que las estructuras en la ocurrencia de los terminos de

un vocabulario en los documentos pueden ser usados para recuperar la estructura de topicos

latentes con el uso de conocimiento previo. Los parametros a estimar son φ y θ, que ındican que

palabras son importantes para un topico y que topicos son importantes para un documento.


A continuacion presentamos una breve introduccion de la distribucion de Dirichlet. Para mas de-

talle consultar [58], donde se encuentra una descripcion detallada de la distribucion de Dirichlet,

ası como la estimacion de los parametros.

A.4.1. Distribucion de Dirichlet

La distribucion de Dirichlet es comunmente usada en la inferencia Bayesiana para asignar pro-

babilidades a un conjunto de datos. Una distribucion de Dirichlet T-dimensional esta definida

como una distribicion sobre multinomiales las cuales son T-tuplas p = (p1, . . . , pT ) que su-

man la unidad. El espacio de las multinomiales (T-dimensional) es por definicion un simplex,

ası que la distribucion de Dirichlet puede verse como una distribucion sobre un simplex [58].

Algebraicamente la distribucion esta dada por;

Dir(α1, . . . , αT ) =1Z

∏k

pαk−1k . (A.28)

Donde, Z =

TQk=1

Γ(αk)

Γ

TPk=1

αk

! es un factor de normalizacion. Los K parametros αk se asumen positivos.

Esta distribucion es util para asignar probabilidades a priori sobre los pesos del modelo de

mezclas y para encontrar el numero de cumulos optimo sobre los datos.

Una parametrizacion simple de Dirichlet esta dada por s =T∑k=1

αk y T =(α1s , . . . ,

αTs

). El

vector T suma la unidad, de ahı, que es un punto en el simplex, s es comunmente referida como

parametro de parametrizacion o concentracion de Dirichlet ya que controla la concentracion de

la distribucion al rededor de la media.

Dado un conjunto de datos observados de una multinomial D = {p1, . . . ,pN}, los parametros

de la distribucion de Dirichlet pueden ser estimados de la funcion de verosimilitud de los datos

como:

F (α) = log p(D|α)

= log∏i

p(pi|α)

= log∏i

Γ (∑

k αk)∏k Γ(αk)

∏k

pαk−1ik

= N

(log Γ

(∑k

αk

)−∑k

logΓ(αk) +∑k

(αk − 1) log pk

)(A.29)


donde log pk = 1N

∑i log pik es el estadıstico suficiente observado. Se hace uso del log-verosimilitud

por la convexidad y de esta manera garantizar un α optimo. Lo que resta es maximizar la funcion

objetivo con metodos como gradiente descendente , Newton-Raphson, entre otros.

Regresando al analisis de texto, cada hiperparametro αj se interpreta como una observacion a

priori que cuenta el numero de veces en que el topico j se muestrea para generar un documento.

Usando la simetrıa de la distribucion de dirichlet α = α1, . . . , αT . Si se coloca una distribucion

de Dirichlet sobre la distribucion θ, el resultado es una distribucion de topicos suave, con la suma

de estos determinada por el parametro α. La figura A.5 ilustra la distribucion de Dirichlet para

3 topicos, sobre un simplex de 2 dimensiones. El simplex es un buen sistema de referencia para

representar todas las posibles distribuciones de probabiblidad para algun punto p = p(p1, . . . , pT )

en el simplex, donde∑jpj = 1.

Figura A.5: Simetrıa de la distribucion de Drichlet para 3 topicos en un simplex de dimension2. A la izquierda con α = 4 y a la derecha con α = 2. Las zonas mas oscuras ındican mayor

probabilidad.

La probabilidad a priori en la distribucion de los topicos puede ser interpretado como fuerzas

en la combinacion de los topicos, regulan la concentracion de la distribucion. Con α > 1 los

topicos se van al centro (simplex de la izquierda de la figura A.5). Para α < 1 la distribucion se

va a las esquinas (simplex de la derecha de la figura A.5).

Griffiths y Steyvers, exploran una variante del modelo introduciendo una distribucion de Dirichlet(β)

para φ. El parametro β suaviza la distribucion de las palabras en cada topico, con la suma pon-

derada determinada por β. Una buena eleccion de los valores de los hiperparametros α y β

depende del numero de topicos y de la dimensionalidad del vocabulario. Este modelo es referido

como LDA, donde se asignan probabilidades a priori a las palabras y a los documentos.

A.4.2. Modelo grafico

En la figura A.6 se muestra el modelo grafico de LDA. El doble cırculo ındica las variables

observadas, mientras que las que tienen solo un cırculo son las variables latentes (no obser-

vadas). Las variables φ, θ y z son 3 conjuntos de variables latentes que se desean inferir. Los


hiperparametros α y β son restricciones del modelo. Las flechas ındican independencia condi-

cional entre las variables y las cajas se refieren a un proceso repetitivo donde la variable en la

parte inferior derecha controla el numero de veces que se realizara el muestreo. Por ejemplo,

la caja 1 ilustra el muestreo repetitivo de los topicos y las palabras hasta obtener Nd palabras

para generar el documento d, la caja 3 se refiere al muestreo repetitivo de la distribucion de las

palabras para cada topico z hasta que se generen T topicos.

β

α1

3

z

w

θ(d)

φ(z)

NdD

T

2

Figura A.6: Representacion grafica del modelo LDA. El doble cırculo representa la variableobservada, un cırculo las variables no observadas (latentes). Las cajas simbolizan un procesorepetitivo. Las variables a estimar son φ, θ y z mientras que α y β son las restricciones del

modelo.

A.4.3. Interpretacion geometrica

Con un vocabulario constituido por W palabras puede construirse un espacio de dimension

W , donde cada eje representa la probabilidad de observar una palabra particular. El simplex

de dimension (W − 1) representa todas las distribuciones de probabilidad posibles sobre las

palabras. Cada documento en el corpus puede representarse como un punto en el simplex.

Cada documento generado por el modelo es una combinacion convexa de T topicos que no

solo representa las distribuciones de las palabras generadas por el modelo como un punto en el

simplex de dimension W − 1, si no como puntos en el simplex de dimension (T − 1) suavizado

por los topicos. Las probabilidades de Dirichlet en las distribuciones de los topicos y las palabras

pueden interpretarse como fuerzas en la localizacion del topico.

Cuando el numero de topicos es mucho mas pequeno que W (T << W ), los topicos estan en una

baja dimensionalidad, en un “subsimplex”, y la proyeccion de cada documento en el subsimplex

de baja dimensionalidad puede verse como una reduccion de la dimensionalidad del problema.


En la figura A.7, el area sombreada es la region de un simplex en dos dimensiones que repre-

sentan todas las distribuciones de probabilidad de 3 palabras. Por ejemplo; con 2 topicos, cada

documento generado se encuentra a lo largo de la lınea entre los dos topicos.

Figura A.7: Interpretacion geometrica del modelo de topicos.

A.4.4. Extraccion de topicos

Las variables de interes en el modelo son las distribuciones de φ y θ para cada documento. Si

bien, el modelo de la figura A.6 es aun relativamente simple, la inferencia exacta es generalmente

intratable. En vez de estimar la distribucion de φ (topicos-palabras) y θ (topicos) para cada

documento, se estima la distribucion sobre z, dadas las palabras observadas w y marginalizando

sobre φ y θ. Se describira un algoritmo que utiliza el muestreo de Gibbs para extraer el conjunto

de topicos de un corpus.

A.4.5. Muestreo de Gibbs

El muestreo de Gibbs es un caso especial de los metodos de Markov-Chain Monte Carlo (MCMC)

y es un algoritmo relativamente simple para aproximar modelos de alta dimensionalidad como

el LDA [28]. El muestreo de Gibbs consiste en asignar las palabras del vocabulario a los topicos

y estimar la probabilidad de estas asignaciones, condicionando el topico asignado al resto de las

palabras. De esta distribucion condicional, un topico es muestreado y se almacena como nuevo

topico asignado a la palabra. Esta distribucion condicional se escribe como;

p(zi = j|z−i, wi, di). (A.30)


donde zi = j representa al topico asigando a la palabra i para el topico j, z−j se refiere al topico

asignado a todas las otras palabras. Griffiths y Steyvers muestran que esta probabilidad puede

calcularse como;

p(zi = j|z−i, wi, di, ·) ∝CWTwij

+ β

W∑w=1

CWTwj +Wβ

CDTdij + α

T∑t=1

CDTdit + Tα

. (A.31)

donde CWT y CDT son matrices de cuentas de dimension W × T y D × T respectivamente,

ademas, “·” representa a la informacion observada (palabras y documentos con ındices w−i, d−iy los hiperparametros α y β). CWT

wj contiene el numero de veces que la palabra w se asigna al

topico j, no incluyendo el estado actual i, mientras que CDTdj contiene el numero de veces que

el topico j fue usado para determinar alguna palabra en el documento d, no incluye el estado

actual i. Note que la ecuacion A.31 no esta normalizada para lo cual se debe dividir por la suma

sobre todos los topicos y asi obtener la probabilidad de asignar una palabra al topico j. La parte

izquierda de la ecuacion A.31 es la probabilidad de una plabra w bajo el topico j mientras que

la parte derecha representa la probabilidad del topico j en la distribucion del documento d. Si

el topico j ha sido usado varias veces en un documento, este incrementa la probabilidad de que

alguna palabra del documento sea asignada al topico j.

El muestreo de Gibbs comienza asignando cada palabra a un topico aleatoriamente [1, . . . , T ].

Para cada palabra las matrices CWT y CDT se decrementan por la entrada del topico actual

asignado, entonces un nuevo topico es muestreado de la distribucion de la ecuacion A.31 y las

matrices de cuentas CWT y CDT se incrementan con el nuevo topico asignado. Cada muestreo

de Gibbs esta compuesto por un conjunto de topicos. En el estado inicial del proceso (perıodo

de quemado), el muestreo de Gibbs tiene que ser descartado, despues del perıodo de quemado, el

muestreo de Gibbs se comienza a aproximar la distribucion objetivo (es decir, la distribucion a

posteriori de los topicos). En este punto, para dar un conjunto representativo de la distribucion

aproximada, un numero de muestras de Gibbs es almacenado en intervalos igualmente espaciados

para prevenir correlaciones entre las muestras.

A.4.6. Estimando φ y θ

El muestreo da estimaciones de z para cada palabra, sin embargo, para varias aplicaciones del

modelo se requiere estimar φ′ y θ′ de las distribuciones “palabra-topico” y “topico-documento”,

esto se puede calcular como sigue;


φ′(j)i =

CWTij + β

W∑k=1

CWTkj +Wβ

.

θ′(d)j =

CDTdj + α

T∑k=1

CDTdk + Tα

. (A.32)

Estas estimaciones corresponden a la distribucion estimada resultado de muestrear una nueva

palabra i del topico j y muestrear una nueva palabra en un documento d del topico j, estas

cantidades estan condicionadas a un z particular. Para mas detalle de la estimacion de los

parametros contultar [28].

No hay un orden a priori de los topicos lo cual hace que los topicos sean identificables entre

o incluso en el proceso de simulacion. Teoricamente, el topico j en el muestreo de Gibbs no

esta restringido a ser similar a el topico j en el subsecuente muestreo. Cuando los topicos son

usados, los topicos se promedia sobre los diferentes muestreos de Gibbs. Modelando el promedio,

es probable mejorar los resultados por que son un resultado de promediar en multiples soluciones

locales de la distribucion.

En algunas aplicaciones es deseable determinar el orden de los topicos para interpretar su

significado individualmente, en esta situacion, es importante que los topicos sean estables. La

eleccion del numero de topicos puede afectar la interpretacion de los resultados. Una solucion

con muchos topicos generalmente resulta en una interpretacion muy amplia, con pocos topicos

los resultados no son interpretables.

A.5. Ejemplo de analisis de texto usando un modelo de topicos

probabilısticos

En esta seccion, se da un ejemplo de analisis de texto para ilustrar el uso del modelo LDA con

datos reales. Se tiene una coleccion de 8 documentos, a este conjunto lo denotaremos como:

D = { UnivJunio, UnivJulio, UnivAgosto, UnivSeptiembre, JornJunio, JornJulio, JornAgosto,

JornSeptiembre }

Cada documento contiene los encabezados de dos periodicos nacionales durante un mes. Los

periodicos considerados son El Universal y La Jornada. Los datos se recolectaron diariamente

de los encabezados principales en los meses de junio, julio, agosto y septiembre del ano 2006.


Por ejemplo, los encabezados de los primeros 5 dıas del mes de julio del 2006 de los periodicos

La Jornada y El Universal se muestran en las tablas A.2 y A.1. El proposito es determinar los

topicos presentes en los encabezados de los periodicos de junio a septiembre del 2006.

Fecha Principales encabezados del periodico El Universal

1 de julio del 2006 en las entranas del IFE.GASTARON EN ’SPOTS’ 1.4 BILLONES.

2 de julio del 2006 Espera IFE afluencia de 60 % del electorado.3 de julio del 2006 Pelean voto por voto.

El Tribunal definira al ganador.4 de julio del 2006 Obligan gobernadores a Madrazo a dejar la pelea.

Del computo de actas saldra el nombre del ganador.5 de julio del 2006 Cae ventaja de Felipe sobre AMLO a la mitad: 0.6 %.

Elba: Madrazo nos llevo al fracaso; dividio al partido.“LEGITIMAR EL PROCESO NO DEPENDE DE CAPRICHOS”.

Cuadro A.1: Principales encabezados de los primeros 5 dıas del mes de Julio del periodico ElUniversal, que pertenecen al documento UnivJulio.

Fecha Principales encabezados del periodico La Jornada

1 de julio del 2006 Hackean pagina web de AMLO e insertan falso llamado a la “resistencia”.Ugalde pide a los aspirantes no “autoproclamarse como ganadores”.

2 de julio del 2006 Hoy, cambio o continuidad.3 de julio del 2006 El IFE, rebasado; aplaza el veredicto.

Paron del PRI al instituto; se declara “factor de estabilidad”.Ugalde: el conteo rapido no permite definir un ganador.“Segun actas, tenemos ventaja de 500 mil votos”, dice el perredista.Festeja el panista sus cifras: “he ido arriba desde el primer momento”.

4 de julio del 2006 Lopez Obrador: “perdidos”, tres millones de votos.Tacito aval de Roberto Madrazo al triunfo de Felipe Calderon.Presiono el PAN al IFE para que divulgara datos de su ventaja.Resaca electoral.

5 de julio del 2006 Actas en el basurero de Xochiaca.Reacomoda el IFE resultados.Magica formula del instituto para introducir datos “inconsistentes”.

Cuadro A.2: Principales encabezados de los primeros 5 dıas del mes de Julio del periodico LaJornada, que pertenecen al documento JornJulio.

El analisis comienza con la recoleccion de palabras en uso (todas las palabras presentes en el

conjunto D), luego se cuentan que palabras se usan en cada documento. Partiendo de esto se

establece una frecuencia de palabras por documento. Los modelos de variables latentes como

el LDA extraen el significado de las palabras sin considerar las palabras usadas ocasionalmente

en los documentos (preposiciones, conjunciones, etc.) y se enfoca en lo que es comun en los

documentos [50]. El proceso anterior es lo que se conoce como construccion de la matriz de

concurrencia, para el presente ejemplo la dimension del vocabulario es de 1444 palabras y 8

documentos.


Se desea: Estimar la distribucion del parametro θ que mejor explique los encabezados de los

periodicos y calcular la probabilidad de un nuevo encabezado dados los encabezados anteriores.

Para estimar los parametros del modelo LDA se pueden utilizar aproximacion variacional, apro-

ximacion de Laplace y Cadenas de Marcov [53], en este ejemplo, para estimar los valores de los

parametros se usa un muestreo de Gibbs que es un metodo particular de Cadenas de Markov. En

las graficas de la Figura A.8 se observa la estimacion de α y β variando sus valores en el intervalo

de [1, 100] en incrementos de 10 y de [0.1, 0.2, 0.4, 0.6, 0.8, 1, 10, 20, 40, 60, 80, 100, 200, 400, 600]

respectivamente.

2 4 6 8 10 12 14−2.12

−2.11

−2.1

−2.09

−2.08

−2.07

−2.06

−2.05

−2.04x 10

4

K

log

p(x;

K)

Alpha

2 4 6 8 10 12 14−2.2

−2.15

−2.1

−2.05

−2

−1.95

−1.9x 10

4

K

log

p(x;

K)

Variando Beta

Figura A.8: En la primera grafica se estima el valor de α con β = 1, mientras que en lasegunda, se estima β con α = 50.

Con α y β de 50 y 1 respectivamente se estima el numero de topicos (T ) presentes en la

distribucion de los datos (matriz de concurrencia, ver figura A.9). Para construir la matriz de

concurrencia , previamente se genera el Vocabulario o Diccionario de palabras, que son las

palabras que estan contenidas en todos los documentos. Cabe aclarar que no se consideran

las preposiciones, adverbios, conjunciones, articulos y los pronombres. Algunos elementos del

diccionario son:

Diccionario: EVASION, FISCAL, CAMPA, GOBERNABILIDAD, DF, METAS, ECONOMI-

CAS, CANDIDATOS, SUSTENTO, EXPERTOS, PROPONEN, TRUCOS, DEBATE,

CAMPANAS, ULTIMO, JALON, AJUSTAN, TACTICAS, DARAN, PRIORIDAD, IDEAS,

DESCARTAN, GOLPES, OPORTUNIDADES, ALIMENTA, PADRON, ACCION, . . .

Usando T = 2, en la tabla A.3 se muestran las primeras 15 palabras y su respectiva probabilidad

segun el topico en el que se encuentren, a los topicos los identificamos como Impugnacion y

Elecciones. Mientras que en la tabla A.4 se muestran los resultados con T = 3 topicos que

etiquetamos como Impugnacion, Elecciones y Campana.


Matriz de concurrencia

Palabras

Doc

umen

tos Universal

Jun

Jul

Agost

Sep

JornadaJun

Jul

Agost

Sep200 400 600 800 1000 1200 1400

1

2

3

4

5

6

7

8

2 4 6 8 10 12 14−2.11

−2.1

−2.09

−2.08

−2.07

−2.06

−2.05x 10

4

K

log

p(x;

K)

alpha:50 beta:1

Figura A.9: A la izquierda se presenta la matriz de concurrencia que es la frecuencia de laspalabras del vocabulario en los documentos, mientras que a la derecha, se estima el numero de

topicos con α = 50 y β = 1.

Impugnacion 0.46313 Elecciones 0.53687LOPEZ 0.00995 CALDERON 0.02353IFE 0.00774 AMLO 0.02289AMLO 0.00737 IFE 0.01049PRD 0.00700 FELIPE 0.00890FOX 0.00479 OBRADOR 0.00890PAN 0.00442 VOTO 0.00795CRISIS 0.00405 COALICION 0.00795MADRAZO 0.00332 ELECTORAL 0.00731VOTO 0.00332 ES 0.00700AN 0.00332 TEPJF 0.00604PAIS 0.00332 PRESIDENTE 0.00604TEPJF 0.00332 PAN 0.00572RECUENTO 0.00332 TRIBUNAL 0.00509CASILLAS 0.00332 PRI 0.00509TRIBUNAL 0.00295 PRD 0.00477

Cuadro A.3: Se muestran las 15 palabras con mayor probabilidad en cada topico. Las proba-bilidades de los topicos se encuentran en el primer renglon en la columna 2 y 4.

A.6. Conclusiones

Los modelos de variables latentes en el analisis de texto permiten extraer el sentido de los textos

y tienen gran potencial para hacer importantes contribuciones al analisis estadıstico de un gran

conjunto de documentos. Estos modelos hacen suposiciones explicitas acerca de los procesos

causales responsables de genera un documento, ademas permiten usar sofisticados metodos

estadısticos para identificar estructuras latentes en un conjunto de palabras. Aunque aun existen

problemas con el orden de las palabras, la sintaxis, las expresiones logicas, la cuantificacion, las

negaciones, las relaciones retoricas, el reconocimiento de los antonimos y otros componentes


Fraude 0.31457 Impugnacion 0.30731 Campana 0.37812IFE 0.00784 LOPEZ 0.01203 AMLO 0.02572PRD 0.00740 IFE 0.00802 CALDERON 0.02535PAN 0.00522 AMLO 0.00713 OBRADOR 0.00942TRIBUNAL 0.00435 RESISTENCIA 0.00579 COALICION 0.00869CRISIS 0.00392 TEPJF 0.00535 VOTO 0.00833AN 0.00392 FELIPE 0.00401 ELECTORAL 0.00797RECUENTO 0.00392 LLAMA 0.00357 ES 0.00761FOX 0.00392 NACIONAL 0.00312 FELIPE 0.00724CASILLAS 0.00392 GOBIERNO 0.00312 IFE 0.00688PAIS 0.00348 CIVIL 0.00312 PAN 0.00652DICE 0.00348 MEXICO 0.00312 PRD 0.00543FELIPE 0.00305 UGALDE 0.00267 TEPJF 0.00543NIEGA 0.00305 VOTO 0.00267 PRESIDENTE 0.00543AMLO 0.00261 TRIBUNAL 0.00267 PRI 0.00507VOTO 0.00261 PIDE 0.00267 MIL 0.00435

Cuadro A.4: Probabilidad de las 15 primeras palabras mas frecuentes en los tres topicos.

IFE

AMLO

PRD

FOX

PAN

CRISIS

MADRAZO

VOTO

AN

LÓPEZ CALDERÓN

AMLO

IFE

FELIPE

OBRADOR

VOTO

COALICIÓN

ELECTORAL

ES

TEPJF

" Impugnación " " Campaña "

" Campaña "" Impugnación "" Fraude "

IFE

TRIBUNAL

PAN

PRD

CRISIS

AN

RECUENTO

FOX

CASILLAS

PAÍS

LÓPEZ

IFE

AMLO

RESISTENCIA

TEPJF

FELIPE

LLAMA

NACIONAL

GOBIERNO

CIVIL

AMLO

CALDERÓN

OBRADOR

COALICIÓN

VOTO

ELECTORAL

ES

FELIPE

IFE

PAN

Figura A.10: Las 10 palabras mas frecuentes con T = 2 y T = 3.

analiticos de la comprension. Por estas razones, estos modelos pierden capacidad explicativa

[50].

Apendice B

SIFT

B.1. Introduccion

Los SIFT (Scale Invariant Feature Transform) son caracterısticas en una imagen que tienen

muchas propiedades y las hacen apropiadas para el registro de imagenes de un objeto o escena. Se

puede entender como una generalizacion de la extraccion de bordes/esquinas. Las caracterısticas

son invariantes a escala, rotacion y parcialmente invariantes a cambios de iluminacion. Las

principales etapas del calculo de las caracterısticas se describen a continuacion:

1. Deteccion de puntos en el espacio de escalas: Se hace una busqueda sobre todas

las escalas y posiciones de la imagen. La implementacion eficiente se realiza usando una

funcion DoG (diferencia de Gaussianas) para identificar puntos de interes potenciales que

sean invariantes a escala y orientacion.

2. Localizacion de puntos : A cada posicion candidata se ajusta un modelo para determi-

nar la ubicacion y escala, los puntos se seleccionan con base en una medida de estabilidad.

3. Asignacion de una Orientacion : Se asocia a cada punto una o mas orientaciones

basada en la direccion del gradiente de la imagen local.

4. Generacion de un descriptor : Se calcula el gradiente de la imagen local en la escala

seleccionada y en la region alrededor de cada punto.

Esta aproximacion genera diversas caracterısticas y la calidad de estas es particularmente impor-

tante para el reconocimiento de objetos. Para el registro y reconocimiento de imagenes, primero

se extraen los SIFTs de un conjunto de imagenes de referencia y estos son almacenados en una

base de datos. Para una nueva imagen se compara cada una de sus caracterısticas con las que se

encuentran en la base de datos, las caracterısticas candidatas se eligen con base en la distancia

euclidiana de los vectores de caracterısticas [45].

92

Apendice B. SIFT 93

B.2. Deteccion de puntos de interes en el espacio de escalas

El primer paso en la deteccion de puntos es identificar posiciones y escalas que se repiten en

diferentes vistas del mismo objeto. La deteccion de posiciones invariantes al cambio de escala

puede lograrse buscando caracterısticas estables a traves de todas las posibles escalas usando

una funcion continua de escala conocida como espacio escalar.

El espacio escalar de una imagen se define como una funcion L(x, y, σ) que proviene de la

convolucion de una Gaussiana G(x, y, σ) con una imagen I(x, y):

L(x, y, σ) = G(x, y, σ) ∗ I(x, y) (B.1)

donde ∗ es el operador de convolucion en (x, y) y G(x, y, σ) = 12πσ2 e

−(x2+yy)

2σ2 . El espacio de

escala de la LoG es un suavizado constante de la imagen. Para la deteccion eficiente de puntos

estables en la escala espacial Lowe propone usar un punto extremo en la funcion de diferencia de

gaussianas convolucionada con la imagen, D(x, y, σ) la cual puede ser calculada de la diferencia

de escalas cercanas separadas por un factor multiplicativo k:

D(x, y, σ) = (G(x, y, kσ)−G(x, y, σ)) ∗ I(x, y)

= L(x, y, kσ)− L(x, y, σ) (B.2)

DoG aproxima al Laplaciano de Gaussianas LoG σ2∇2G. Lindeberg (1994) mostro que la nor-

malizacion del Laplaciano con el factor σ2 se requiere para la invarancia a la escala y Mikolajczyk

(2002) encontro que el maximo y mınimo de σ2∇2G producen caracterısticas mas estables.

Las escalas del filtro DoG a diferentes escalas difieren por un factor constante incorporando el

factor de normalizacion σ2 requerido por el Laplaciano.

Una eficiente construccion de D(x, y, σ) se observa en la figura B.1. La imagen inicial es incre-

mentalmente convolucionada con Gaussianas para producir imagenes separadas por un factor

constante k en el espacio de escala (columna de la izquierda). Estas imagenes se dividen en

s octavas, por lo que k = 21/s. Se deben producir al menos s + 3 imagenes por octava. Las

imagenes adyacentes son substraıdas para producir la diferencia de Gaussianas (columna de la

derecha). Una vez completado la octava, este tiene que ser procesado, se hace un re muestreo

de la imagen Gaussiana que tiene valor inicial σ tomando cada segundo pixel en cada renglon

y columna.

Apendice B. SIFT 94

Figura B.1: En cada octava del espacio escalar, la imagen inicial es repetidamente convolucio-nada con Gaussianas para generar un conjunto de imagenes espaciadas, como se observa en laparte izquierda. Imagenes de Gaussianas adyacentes son substraıdas para producir la diferenciade Gaussianas como se ve en la parte derecha. Despues para cada octava, la imagen Gaussiana

es muestreada por un factor de 2 y el proceso se repite.

En el ejemplo de la Figura B.1, serıa s = 2 y las 5 imagenes de cada octava (resultantes

de la convolucion con Gaussianas) se obtienen con σ0, σ1 = 21/2σ0, σ2 = 21/221/2σ0 = 2σ0,

σ3 = 21/221/221/2σ0 = 23/2σ0, σ4 = 21/221/221/221/2σ0 = 4σ0. La imagen σ2 de cada octava se

submuestrea (pixel si, pixel no) a la mitad y ası pasar a la siguiente.

B.3. Deteccion de extremos

Para detectar los maximos y minimos de D(x, y, σ), cada punto muestreado es comparado con

sus 8 vecinos de la imagen actual con los 9 vecinos de la imagen superior y los 9 vecinos de

la imagen inferior (Figura B.2). El punto es seleccionado solo si es un maximo local (mayor a

todos los pixeles vecinos) o un minimo local (menor a todos los pixeles vecinos). El muestreo

tiene bajo coste computacional debido a que los puntos muestreados son eliminados despues del

primer chequeo.

Una cuestion importante, es determinar la frecuencia del muestreo de la imagen y el dominio de

la escala que se necesita para detectar extremos. Los extremos que estan cercanos son inestables

a pequenas perturbaciones en la imagen.

En los experimentos realizados por Lowe muestran que el espacio de escala de la funcion de

diferencia de Gaussianas tiene un gran numero de puntos extremos y puede ser muy caro de-

tectarlos a todos ellos. Afortunadamente se pueden detectar los mas estables en un muestreo de

las escalas.

Apendice B. SIFT 95

Figura B.2: Calculo del maximo y el minimo de D(x, y, σ) comparando el pixel muestreadocon sus 9 vecinos.

B.4. Estimacion precisa de la localizacion

Una vez que los puntos son calculados comparando el pixel con sus vecinos, el siguiente paso

es un ajuste detallado de los datos locales para determinar su localizacion, escala y el radio

de las curvas principales. A cada maximo y minimo se ajusta una funcion cuadratica 3D. Esta

expresion usa la expansion de Taylor de la funcion escalar espacial D(x, y, σ):

D(x) = D +∂DT

∂xx+

12xT∂2D

∂x2x. (B.3)

Donde D y su derivada es evaluada en el punto muestreado y x = (x, y, σ)T es la posicion de

este punto. La localizacion del extremo x es determinado por la derivada de esta funcion con

respecto a x e igualando a 0:

x = −∂2D−1

∂x2

∂D

∂x. (B.4)

El Hessiano y la derivada de D se aproxima calculando la diferencia de los vecinos de los puntos

muestreados, obteniendo un sistema lineal de 3× 3 que se puede resolver con un bajo costo. El

valor de D en dicho extremo, se calcula sustituyendo la ecuacion B.4 en B.3.

D(x) = D +12∂DT

∂xx. (B.5)

B.5. Asignacion de orientacion

Para cada imagen muestreada L(x, y), la escala, la magnitud del gradiente m(x, y) y la orien-

tacion θ(x, y) es calculada usando la diferencia de los pixeles:

Apendice B. SIFT 96

m(x, y) =√

(L(x+ 1, y)− L(x− 1, y))2 + (L(x, y + 1)− L(x, y − 1))2. (B.6)

θ(x, y) = tan−1

[L(x, y + 1)− L(x, y − 1)L(x+ 1, y)− L(x− 1, y)

.

](B.7)

Un histograma de orientaciones se realiza con la orientacion de los gradientes de los puntos

muestreados en una region al rededor del punto (histograma de 36 posiciones, una por cada

10◦). Cada muestra agregada al histograma es pesada por la magnitud del gradiente y por una

ventana circular pesado gaussiano. Los picos en el histograma de orientaciones corresponden a

las direcciones dominantes de los gradientes locales. El pico mas alto del histograma se detecta y

entonces, algun otro pico local que esta dentro del 80 % del pico mas alto es usado para crear un

punto y una orientacion. Para multiples picos de magnitud similar, estos seran puntos creados

en la misma localidad y escala pero, con diferentes orientaciones. Cerca del 15 % de los puntos

se les asignan multiples orientaciones y estos contribuyen significativamente a la estabilidad de

las caracterısticas.

B.6. Representacion de los descriptores

Primero, la magnitud del gradiente de la imagen y las orientaciones son muestreadas alrededor

de la posicion del punto, se usa la escala del punto para seleccionar el nivel de la Gaussianna

para la imagen. Las coordenadas del descriptor y las orientaciones del gradiente son rotadas a la

orientacion del punto consiguiendo ası, la invarianza a la orientacion. Por eficiencia, el gradiente

es calculado en todos los niveles de la piramide. Lo anterior se ilustra en la parte izquierda de

la Figura B.3.

Una funcion Gaussiana de pesos con σ igual a la mitad del ancho de la ventana del descriptor

se usa para asignar un peso a la magnitud de cada punto muestreado. Esto se ilustra con una

ventana circular (imagen izquierda de la figura B.3). El proposito de la ventana Gaussiana es

dar tolerancia a cambios repentinos en el descriptor con pequenas varianzas en la posicion de la

ventana.

El descriptor se muestra en la parte derecha de la Figura B.3. Este permite cambios significativos

en las posiciones del gradiente creando histogramas de orientacion sobre regiones de 4 × 4. Es

importante considerara todos los efectos en los cuales el descriptor tenga cambios bruscos, de

ahı que se usa una interpolacion trilineal para distribuir los valores de cada gradiente entre bins

adyacentes de los histogramas.

Apendice B. SIFT 97

Figura B.3: Primero se calculan las magnitudes del gradiente y la orientacion de cada imagenmuestreada en el punto en la region alrededor de su posicion (imagen de la izquierda). Estas sonpesadas por una funcion Gaussiana. Las muestras son acumuladas en histogramas de orientacionresumiendo el contenido en ventanas de 4 × 4 subregiones (figura de la derecha), donde cada

flecha corresponde a la suma de las magnitudes del gradiente.

El descriptor esta formado por un vector que contiene los valores de todas los histogramas

de orientacion de entrada (flechas de la figura derecha de B.3). La figura muestra un arreglo

de 2 × 2. Los mejores resultados de los experimentos realizados por Lowe, se obtuvieron con

arreglos de 4× 4 con 8 bins de orientaciones. De ahı que se obtienen descriptores de dimension

4× 4× 8 = 128.

Finalmente, a los vectores de caracterısticas se les realiza una modificacion para que estos re-

duzcan los efectos a cambios de contraste e iluminacion. Primero, los descriptores se normalizan

para que su longitud sea uno, lo anterior para obtener invarianza a los cambios de contraste.

Posteriormente se vuelven a normalizar para obtener cierta invarianza a cambios no lineales de

iluminacion. Lowe, porpone que los valores del vector de caracterısticas no sean mayores a 0.2

para despues normalizar a la unidad.

Apendice C

Resultados de Craneosinostosis

En este apendice se presentan resultados adicionales a los mostrados en el capıtulo 3. El numero

de topicos K considerados son: 8, 9 y 10 con tasas de reduccion de 75 : 1, 66 : 1 y 60 : 1

respectivamente. Los parametros para generar los resultados presentados en este apendice son

los mismos que se presentaron en el Cuadro 3.11.

C.1. Clasificacion de formas craneales (Algoritmo 1)

Los resultados de clasificacion usando el Algoritmo 1 se resumen en el Cuadro C.1. En la Figura

C.1, se presentan los parametros de las matrices del Cuadro C.1. Los resultados ma pobres se

obtienen con el kernel Kχ2 . Los mejores resultados se obtienen con K = 9.

K = 8 K = 9 K = 10c λ c λ c λ

KH1 200 5 200 7 250 3KH2 200 9 200 5 250 3KTV 200 5 175 11 250 5Kχ2 200 9 150 11 250 5

K = 8 K = 9 K = 10c λ γ c λ γ c λ γ

KGH1 175 3 0.1 150 11 0.1 250 3 0.1KGH2 150 3 0.3 200 3 0.1 125 5 1.5KGTV 175 3 0.1 200 3 0.1 250 3 0.1KGχ2 175 9 0.7 175 9 0.7 150 5 3

Figura C.1: Parametros del Cuadro C.1: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ).

98

Apendice C. Resultados de craneosinostosis 99

K = 8 K = 9 K = 10S M C S M C S M C

S 92.31 1.1 6.59 93.41 2.2 4.4 91.21 2.2 6.59KH1 M 2.63 86.84 10.53 2.63 81.58 15.79 0 94.74 5.26

C 7.55 1.89 90.57 5.66 3.77 90.57 3.77 9.43 86.79

S 92.31 3.3 4.4 92.31 3.3 4.4 91.21 2.2 6.59KH2 M 0 92.11 7.89 0 89.47 10.53 2.63 92.11 5.26

C 3.77 7.55 88.68 3.77 7.55 88.68 5.66 3.77 90.57

S 92.31 1.1 6.59 93.41 3.3 3.3 95.6 1.1 3.3KTV M 0 86.84 13.16 2.63 84.21 13.16 0 81.58 18.42

C 5.66 1.89 92.45 5.66 1.89 92.45 5.66 1.89 92.45

S 95.44 4.4 0 93.41 4.4 2.2 93.41 1.1 5.49Kχ2 M 2.63 84.21 13.16 0 84.21 15.79 2.63 78.95 18.42

C 0 9.43 90.57 5.66 3.77 90.57 3.77 0 96.23

S 95.6 1.1 3.3 96.7 2.2 1.1 96.7 1.1 2.2KGH1 M 0 94.74 5.26 2.63 89.47 7.89 0 94.74 5.26

C 7.55 3.77 88.68 1.89 3.77 94.34 7.55 3.77 88.68

S 97.8 1.1 1.1 96.7 2.2 1.1 95.6 2.2 2.2KGH2 M 2.63 92.11 5.26 0 94.74 5.26 0 94.74 5.26

C 7.55 3.77 88.68 3.77 3.77 92.45 5.66 1.89 92.45

S 96.7 2.2 1.1 95.6 2.2 2.2 96.7 1.1 2.2KGTV M 0 94.74 5.26 0 94.74 5.26 0 94.74 5.26

C 5.66 5.66 88.68 5.66 1.89 92.45 7.55 3.77 88.68

S 95.6 2.2 2.2 95.6 2.2 2.2 94.51 3.3 2.2KGχ2 M 0 94.74 5.26 0 94.74 5.26 0 94.74 5.26

C 5.26 3.77 90.57 5.66 3.77 90.57 1.89 3.77 94.34

Cuadro C.1: Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matriz deconcurrencia y los kernels definidos en el Cuadro 3.1: sagital(S), metopico(M), control(C). Enlos cuadros de la Figura C.1, se presentan los parametros. Las celdas en gris corresponden al

mejor resultado de la tabla.

C.2. Clasificacion de formas craneales con diccionario de rasgos

reducido (Algoritmo 4)

Los resultados del clasificacion generados con el Algoritmo 4 se presentan en el Cuadro C.2

y los parametros se dan en las tablas de la Figura C.2. El mejor resultado se consigue con el

kernel KGH2. Los peores resultados de clasificacion se generan con el kernel Kχ2 .

Apendice C. Resultados de craneosinostosis 100

K = 8 K = 9 K = 10S M C S M C S M C

S 87.91 5.49 6.59 91.21 1.1 7.69 94.51 1.1 4.4KH1 M 0 92.11 7.89 0 86.84 13.16 0 73.68 26.32

C 1.89 7.55 90.57 3.77 1.89 94.34 5.66 18.9 92.45

S 95.6 4.4 0 94.51 2.2 3.3 91.21 3.3 5.49KH2 M 0 86.84 13.16 0 89.47 10.53 0 86.84 13.16

C 3.77 9.43 86.79 3.77 7.55 88.68 9.43 7.55 83.02

S 93.41 2.2 4.4 92.31 3.3 4.4 91.21 2.2 6.59KTV M 0 86.84 13.16 0 92.11 7.89 0 86.84 13.16

C 5.66 5.66 88.68 3.77 7.55 88.68 5.66 3.77 90.57

S 84.62 12.09 3.3 85.71 14.29 0 75.82 21.98 2.2Kχ2 M 0 86.84 13.16 0 92.11 7.89 0 86.84 13.16

C 13.21 9.43 77.36 11.32 13.21 75.47 3.77 5.66 90.57

S 95.6 1.1 3.3 96.7 1.1 2.2 96.7 2.2 1.1KGH1 M 0 94.74 5.26 0 92.11 7.89 0 86.84 13.16

C 7.55 0 92.45 5.66 1.89 92.45 1.89 3.77 94.34

S 97.8 1.1 1.1 98.9 1.1 0 97.8 1.1 1.1KGH2 M 0 94.74 5.26 0 94.74 5.26 0 89.47 10.53

C 7.55 1.89 90.57 3.77 1.89 94.34 3.77 3.77 92.45

S 95.6 1.1 3.3 95.6 2.2 2.2 97.8 1.1 1.1KGTV M 0 94.74 5.26 2.63 92.11 5.26 2.63 89.47 7.89

C 9.43 0 90.57 1.89 1.89 96.23 5.66 1.89 92.45

S 96.7 2.2 1.1 95.6 1.1 3.3 94.51 3.3 2.2KGχ2 M 0 94.74 5.26 2.63 89.47 7.89 2.63 89.47 7.89

C 5.66 1.89 92.45 3.77 3.77 92.45 5.66 3.77 90.57

Cuadro C.2: Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matrizde concurrencia reducida y los kernels definidos en el Cuadro 3.1: sagital(S), metopico(M),control(C). En los cuadros de la Figura C.2, se dan los valores de los parametros de las matrices

de confusion. En gris se resalta el mejor resultado de la tabla..

K = 8 K = 9 K = 10c λ c λ c λ

KH1 200 7 250 13 250 9KH2 250 3 250 11 225 9KTV 200 11 250 3 250 9Kχ2 225 11 250 11 250 9

K = 8 K = 9 K = 10c λ γ c λ γ c λ γ

KGH1 100 9 0.1 100 9 0.7 225 7 0.1KGH2 250 3 0.7 100 9 1.5 250 9 1.5KGTV 100 9 0.1 75 13 0.1 50 13 1.5KGχ2 100 9 0.3 100 11 0.1 50 11 3

Figura C.2: Parametros del Cuadro C.2: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ).

Bibliografıa

[1] C. Marchac E. Lajeunie, M. Le Merrer and D. Renier. Genetic study of scaphocephaly.

Am. J. Med. Gen., 62:282–285, 1996.

[2] M.L. Speltz, Kapp-Simon, Marsh J. K.A., and N.G. Dawson. Single suture synostosis: a

review of neurobehavioral research and theory. Journal of Pediatric Phsychology, pages

651–668, 2004.

[3] Magge, S.N., Westerveld, M., Pruzinsky, T., Persing, and J.A. Long-term neuropsychologi-

cal effect of sagittal craniosynostosis on child development. J. Craniofacial Surgery, pages

99–104, 2002.

[4] R. Virtanen, T. Korhonen, J. Fagerholm, and J. Viljanto. Neurocognitive sequelae of

scaphocephaly. Pediatrics 3, pages 791–795, 1999.

[5] Magge S.N. Westerveld M. Pruzinsky T. Pershing, J. Neuropsychological outcomes fo-

llowing sagittal craniosynostosis. Presented at the annual meeting of the American Cleft

Palate-Craniofacial Association, Scottsdale, AZ, 1999.

[6] A. Z. Nowakowski. Advances of quantitative ir-thermal imaging in medical diagnostics.

Departament of Biomedical Engineering.

[7] R. M. Rangaraj. Biomedical image analysis. CRC Press, 2006.

[8] M. Abdul Rahman Al-kasser L. Abdul-rahman Alı, A. Al-Kassir Abdulla. Aplicaciones de

la termografıa infrarroja en la medicina y la industria alimentaria. Alimentacion, equipos

y tecnologıa, pages 89–95, 2004.

[9] Pedro Garcıa Barreno. Las tecnologıas de la imagen en la medicina. Real academia de

ciencias.

[10] Micki Cuppett y Katie M Walsh. Medicina general aplicada al deporte. Elsevier Mosby,

2005.

[11] Abramowitz M. Introduction to microscopy. Molecular expressions, 2007.

101

Bibliografıa 102

[12] Cullity Bernard Dennis. Elements of X-Ray diffraction. Addison-Wesley Publishing Com-

pany, Inc.

[13] Cremerius U-et al. Young H, Baum R. Measurement of clinical and subclinical tumour res-

ponse using [18f]-fluorodeoxyglucose and positron emission tomography. European Journal

of Cancer, 1999.

[14] Henry Rouviere and Delmas Andre. Anatomıa Humana: Descriptiva, Topografica y Fun-

cional. MASSON 9na edicion, 1996.

[15] T. W. Sadler. Langman - Fundamentos de Embriologia Medica. Panamerican, 1996.

[16] R. E. Kass and A. E. Raftery. Bayes factors. Journal of the American Statistical Associa-

tion, 90:773–795, 1995.

[17] Renier D. Arnaud E. and Marchac D. Prognosis for mental function in scaphocephaly.

Journal of Neurosurgery, 83:476–479, 1995.

[18] C. A. Jocher K. A. Kapp-Simon, A. Figueroa and M. Shafer. Longitudinal assessment

of mental development in infants with nonsyndromic craniosynostosis with and without

cranial release and reconstruction. Plast. Reconstr. Surg., 92:831–9.

[19] S. R. Lele and J. T. Richtsmeier. An invariant approach to the statistical analysis of shapes.

Chapnan and Hall/CRC, 2001.

[20] Thomas Hofmann. Unsupervised learning by probabilistic latent semantic analysis. Ma-

chine learning, pages 177–196, 2001.

[21] H. J. Lin, S. Ruiz-Correa, L. G. Shapiro, A. V. Hing, M. L. Cunningham, M. L. Speltz,

and R. W. Sze. Symbolic shape descriptor for classifying craniosynostosis deformations

from skull imaging. IEEE Engineering in Medicine and Biology Society (EMBS), Annual

International Conference, pages 6325–6331, 2005.

[22] S. Ruiz-Correa, R. W. Sze, H. J. Lin, L. G. Shapiro, M. L. Speltz, and M. L. Cunningham.

Classifying craniosynostosis deformations from skull shape imaging. Computer-Based Me-

dical Systems (CBMS). The 18th IEEE Symposium, pages 335–340, 2005.

[23] S. Ruiz-Correa, R. W. Sze, J. R. Starr, H. J. Lin, M. L. Speltz, M. L. Cunningham, and A. V.

Hing. New scaphocephaly severity indices of sagittal craniosynostosis. a quantitative study

with cranial index quantifications. The American Cleft Palate-Craniofacial Association

Journal, pages 211–221, 2006.

[24] You Z and Jain AK. Performance evaluation of shape matching via chord length distribu-

tion. Computer vision, Graphics, and Image Processing, pages 185–198, 1984.

[25] B. Scholkopf and A. Somola. Learning with kernels. The MIT Press, 2002.

Bibliografıa 103

[26] D.J. Hsu S. Dasgupta and N. Verma. A concentration theorem for projections. Twenty-

Second Conference on Uncertainty in Artificial Intelligence, 2006.

[27] Miriam Presutti. La matriz de co-ocurrencia en la clasificacion espectral. 4a Jornada de

de Educacao em Sensoriamento Remoto no Ambito do Mercosul, 2004.

[28] Gregor Heinrich. Parameter estimation for text analysis. Technical Note, 2008.

[29] Marco Cuturi and Kenji Fukumizu. Kernels on structured objects through nested histo-

grams. NIPS, 2006.

[30] S. Ruiz-Correa, D. Gatica-Perez, H. J. Lin, L. G. Shapiro, and R.W. A bayesian hierarchical

model for classifying craniofacial malformations from ct imaging. Proceedings of the 30th

Annual International Conference of the IEEE Engineering in Medicine and Biology Society,

pages 4063 – 4069, 2008.

[31] B. Erfron and R Tibshirani. An introduction to the Bootstrap. Chapman and Hall, 1991.

[32] J. M. Bernardo, M.F.A. Smith, and M. F. A. Bayesian theory. New York: Wiley, 19944.

[33] Thomas L. Griffiths and Mark Steyvers. Finding scientific topics. Proceedings of the

National Academy os Sciences, pages 5228–5235, 2004.

[34] P. Perona R. Fergus and A. Zisserman. A visual category filter for google images. In Proc.

ECCV, 2004.

[35] R. Fergus, L. Fei-Fei, P. Perona, and A Zisserman. Learning object categories from google’s

image search. Tenth IEEE International Conference on Computer Vision, pages 1816–1823,

2005.

[36] P. Quelhas, F. Monay, J.-M. Odobez, D. Gatica-Perez, T. Tuytelaars, , and L. Van Gool.

Modeling scenes with local descriptors and latent aspects. Proc. IEEE Int. Conf. on Com-

puter Vision (ICCV), 2005.

[37] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. J. Mach.

Learn. Res., 3:993–1022, 2003. ISSN 1533-7928.

[38] A. Popescul, L. Ungar, D. Pennock, and S. Lawrence. Probabilistic models for unified co-

llaborative and content-based recommendation in sparse-data enviroments. In proceedings

of the seveth Conference Uncertainty in Artificial Intelligence, pages 437–444, 2001.

[39] Pedro F. Felzenswalb and Daniel P. Huttenlocher. Glioma del tronco encefalico infantil.

National cancer institute, 2008.

[40] Freeman ML Jennings MT and Murray MJ. Strategies in the treatment of diffuse pon-

tine gliomas: the therapeutic role of hyperfractionated radiotherapy and chemoterapy. J

Neuroonco, pages 207–22, 1996.

Bibliografıa 104

[41] Balma Mena Alexandra Gutierrez Ramirez y Hazel Rodriguez Rodriguez, Carlos. Glioma

del tronco encefalico infantil: revision y reporte de un caso. Acta pediatr. costarric, pages

52–55, 2003.

[42] Gonzalo Melo Camilo Zubieta FabianNeira Fernando Gonzalez, Pedro Penagos and Sandra

Pena. Brain stem gliomas. Rev lolomb cancerol, pages 112–117, 2006.

[43] Mariano Reyes Fernando Saba y Gonzalo Sion Bartolome Drozdowicz, Guillermo Bernas-

coni. Segmentacion semiautomatica de imagenes de resonancia magnetica, basada en redes

neuronales artificiales. Ciencia, Docencia y Tecnologıa, pages 117–155, 2005.

[44] Pedro F. Felzenswalb and Daniel P. Huttenlocher. Efficient graph-based image segmenta-

tion. International Journal of Computer Vision, 2004.

[45] David G. Low. Distinctive image features from scale-invariant keypoints. International

Journal of Computer Vision, pages 91–110, 2004.

[46] David Lowe Stephen Se and Jim Little. Global localization using distinctive visual features.

Proceedings of the 2002 IEEE/RSJ Intl. Conference on Intelligent Robots and Systemsm

EPFL, 2002.

[47] Liangliang Cao and Li Fei-Fei. Spatially coherent latent topic model for concurrent object

segmentation and classification. IEEE 11th International Conference on Computer Vision,

pages 1–8, 2007.

[48] Chih-Shung Chang Chih-Wei Hsu and Chih-Jen Lin. A practical guide to support vector

classification. Software available at http://www.csie.ntu.edu.tw/ cjlin/libsvm, 2008.

[49] Peter W. Foltz Thomas K Landauer and Darrell Laham. An introduction to latent semantic

analysis. Discourse Processes, pages 259–284, 1998.

[50] Rene Venegas V. Analisis semantico latente: una panoramica de su desarrollo. Revista

signos, pages 121–138, 2003.

[51] Laura Dietz and Avare Stewart. Utilize probabilistic topic models to enrich knowledge

bases. In Proceedings of the ESWC, Workshop on Mastering the Gap: From Information

Extraction to Semantic Representation, 2006. doi: http://sunsite.informatik.rwth-aachen.

de/Publications/CEUR-WS//Vol-187/25.pdf.

[52] Mark Steyvers and Thomas L. Griffiths. Rational analysis as a link between human memory

and information retrieval.

[53] Mark Steyvers and Tom Griffiths. Probabilistic topic models. In T. Landauer, D McNama-

ra, S. Dennis, and Kintsch (Eds.), Latent Semantic Analysis: A road to Meaning Laurence

Erlbaum, 2006.

Bibliografıa 105

[54] Thomas Hofmann. Probabilistic latent semantic indexing. In SIGIR ’99: Proceedings of

the 22nd annual international ACM SIGIR conference on Research and development in

information retrieval, pages 50–57, New York, NY, USA, 1999. ACM. ISBN 1-58113-096-1.

doi: http://doi.acm.org/10.1145/312624.312649.

[55] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Retrieval. Addison

Wesley Longman Publishing Co. Inc., 1999.

[56] Thomas Hofmann. Probabilistic latent semantic analysis. Uncertainity in Artificial Inte-

lligence, UAI’99, Stockholm, 1999.

[57] Susan T. Dumais Scott Deerwester and Richard Harshman. Probabilistic latent semantic

analysis. Journal of the American Society of Information Science, pages 391–407, 1990.

[58] Carlos Guestrin Jonathan Huang and Leonidas Guibas. Maximum likelihood estimation

of dirichlet distribution. Report (CMU-ML-08-108), Machine Learning Department, CMU,

2008.

Download - Modelos simb olicos para el an alisis de im agenes biom edicas · CENTRO DE INVESTIGACION EN MATEM ATICAS, A.C. Modelos simb olicos para el an alisis de im agenes biom edicas por

Top Related