CENTRO DE INVESTIGACION EN MATEMATICAS, A.C.
Modelos simbolicos para el analisis de
imagenes biomedicas
por
Yerania Campos Silvestre
Tesis que para obtener el grado de
Maestra en Ciencias con Especialidad en Computacion y Matematicas Industriales
Director de Tesis
Salvador Ruiz Correa, PhD
Departamento de Ciencias de la Computacion
30 de enero del 2009. Guanajuato,Gto.
Dedico este trabajo a mi familia. Gracias por su amor, confianza ycompresion.
i
“Imagination is more important than knowledge.”
A. Einstein
Agradecimientos
A mis padres, Ramon y Catalina les agradezco su apoyo incondicional en cada etapa de mi vida.
A mis hermanos Ariel y Dalila que son una parte esencial. Siempre los llevo en mi corazon.
Deseo agradecer a mi asesor el Dr. Salvador Ruiz Correa por su tiempo y apoyo en la realizacion
de esta tesis.
A los sinodales: el Dr. Jose Luis Marroquın Zaleta, el Dr. Arturo Hernandez Aguirre y el Dr.
Johan J. Van Horebeek por sus sugerencias en la revision de esta tesis.
A todos mis maestros y amigos del CIMAT por todo su apoyo, amistad y experiencias compar-
tidas. En especial a Francisco C. y a mis companeros de la maestrıa.
Finalmente, agradezco al Centro de Investigacion en Matematicas (CIMAT A.C.), al Consejo
Nacional de Ciencia y Tecnologıa (CONACYT) y al Consejo de Ciencia y Tecnologıa del Estado
de Guanajuato (CONCyTEG) por el apoyo proporcionado para que me fuera posible desarrollar
este trabajo y concluir exitosamente mis estudios de Maestrıa en Ciencias de la Computacion.
iii
Indice general
Agradecimientos III
Lista de Figuras VII
Lista de Tablas XII
1. Introduccion 11.1. Craneosinostosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Glioma del tallo cerebral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Imagenologıa medica 62.1. La Termografıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2. La Transiluminacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3. La Microscopıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4. Las Imagenes de rayos X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5. La Tomografıa computarizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.6. La Resonancia magnetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.6.1. Resonancia y relajacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.7. Imagenes de medicina nuclear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.7.1. La Tomografıa por emision de positrones . . . . . . . . . . . . . . . . . . 162.7.2. La Tomografıa por emision de fotones . . . . . . . . . . . . . . . . . . . . 17
2.8. Formato de las imagenes medicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Modelos simbolicos para el analisis de malformaciones craneales causadas porcraneosinostosis primaria 193.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2. Problematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5.1. Imagenes de tomografıa computarizada . . . . . . . . . . . . . . . . . . . 233.5.2. Representacion de craneos utilizando contornos . . . . . . . . . . . . . . . 243.5.3. Descriptores numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.5.3.1. Contexto de forma . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5.3.2. Imagen craneal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
iv
Contenido v
3.5.3.3. Descriptores de Fourier . . . . . . . . . . . . . . . . . . . . . . . 283.5.3.4. Reduccion de la dimensionalidad de los descriptores numericos . 29
3.5.4. Propuesta metodologica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5.5. Seleccion del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.5.6. Metodo de seleccion de variables . . . . . . . . . . . . . . . . . . . . . . . 373.5.7. Metodo para estimar el numero de topicos K . . . . . . . . . . . . . . . . 393.5.8. Muestra poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.6. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.6.1. Clasificacion de formas craneales (Algoritmo 1) . . . . . . . . . . . . . . . 413.6.2. Clasificacion de formas craneales con diccionario de rasgos reducido (Al-
goritmo 4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.6.3. Codificacion de informacion de forma en la MC y en la MCR . . . . . . . 43
3.7. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4. Clasificacion de tejido tumoral en gliomas del tallo cerebral en infantes 504.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2. Problematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.1. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4.1. Imagenes de resonancia magnetica . . . . . . . . . . . . . . . . . . . . . . 534.4.2. Propuesta metodologica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.4.2.1. Preprocesamiento de las imagenes . . . . . . . . . . . . . . . . . 554.4.2.2. Clasificacion de tejido . . . . . . . . . . . . . . . . . . . . . . . . 60
4.4.3. Segmentacion de BSG en imagenes T2 . . . . . . . . . . . . . . . . . . . . 624.4.4. Muestra poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5.1. Clasificacion de textura con el diccionario de rasgos reducido (Algoritmo 6) 634.5.2. Segmentacion de BSG usando el Algoritmo 7 . . . . . . . . . . . . . . . . 64
4.6. Discusion y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5. Conclusiones 69
A. Modelos de variables latentes para el analisis de textos 71A.1. Modelos generativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72A.2. Modelos de topicos probabilısticos . . . . . . . . . . . . . . . . . . . . . . . . . . 74A.3. PLSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
A.3.1. Aspectos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75A.3.2. Calculo de las probabilidades con EM . . . . . . . . . . . . . . . . . . . . 78
A.4. LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81A.4.1. Distribucion de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82A.4.2. Modelo grafico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83A.4.3. Interpretacion geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 84A.4.4. Extraccion de topicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85A.4.5. Muestreo de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Contenido vi
A.4.6. Estimando φ y θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86A.5. Ejemplo de analisis de texto usando un modelo de topicos probabilısticos . . . . 87A.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
B. SIFT 92B.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92B.2. Deteccion de puntos de interes en el espacio de escalas . . . . . . . . . . . . . . . 93B.3. Deteccion de extremos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94B.4. Estimacion precisa de la localizacion . . . . . . . . . . . . . . . . . . . . . . . . . 95B.5. Asignacion de orientacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95B.6. Representacion de los descriptores . . . . . . . . . . . . . . . . . . . . . . . . . . 96
C. Resultados de Craneosinostosis 98C.1. Clasificacion de formas craneales (Algoritmo 1) . . . . . . . . . . . . . . . . . . . 98C.2. Clasificacion de formas craneales con diccionario de rasgos reducido (Algoritmo 4) 99
Bibliografıa 101
Indice de figuras
1.1. La primer imagen se obtuvo con rayos X convencionales mientras que las restantesson reconstrucciones volumetricas de estructuras anatomicas humanas obtenidascon equipos modernos como la tomografıa computarizada. . . . . . . . . . . . . . 1
1.2. Vistas frontales y laterales de la reconstruccion volumetrica del craneo de uninfante afectado por craneosinostosis metopica. La sutura afectada se senala conla flecha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Imagen del tallo cerebral obtenida con resonancia magnetica. . . . . . . . . . . . 4
2.1. Imagen generada con termografıa. Muestra la distribucion de la temperatura enla superficie del objeto en estudio. . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Imagen de la superficie anterior de la retina obtenida con transiluminacion. . . . 82.3. La imagen de la izquierda muestra detalles de las bacterias (bacilos) que mi-
den aproximadamente una micra, mientras que la segunda imagen es de celulasobtenida con fluorescencia microscopica. . . . . . . . . . . . . . . . . . . . . . . . 9
2.4. Radiografıas de distintas partes del cuerpo humano. . . . . . . . . . . . . . . . . 112.5. Esquema de la obtencion de imagenes con tomografıa computarizada. Se emiten
rayos desde distintas posiciones, la informacion es recogida por los detectoresy posteriormente procesada en una computadora para finalmente obtener unaimagen fiable y detallada del objeto de estudio. . . . . . . . . . . . . . . . . . . . 12
2.6. Esquema de la manera en como opera la computadora con la informacion reco-lectada por los detectores. El cırculo representa el objeto a estudiar mientras queel rectangulo la imagen generada por la computadora. . . . . . . . . . . . . . . . 12
2.7. Reconstruccion en 3D de imagenes obtenidas con tomografıa computarizada. . . 132.8. Imagenes obtenidas con resonancia magnetica. . . . . . . . . . . . . . . . . . . . 142.9. Imagenes de resonancia magnetica. La imagen de la izquierda se obtienen con
mediciones T1, mientras que la de la derecha se genera con mediciones T2. . . . 152.10. Imagenes del cerebro obtenidas con tomografıa por emision de positrones. . . . . 17
3.1. El craneo es la estructura osea que protege al cerebro con los huesos temporales,frontales, parietales y occipitales. En la imagen se muestra la posicion de lassuturas y las fontanelas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2. Craneos afectados por craneosinostosis primaria. . . . . . . . . . . . . . . . . . . 203.3. Fotografıas de pacientes con craneosinostosis primaria. De izquierda a derecha: la
imagen de un recien nacido de 1.5 meses afectado por sinostosis sagital; la imagende un bebe de 3 meses con sinostosis metopica, la fotografıa de un paciente de 6semanas de nacido con sinostosis coronal. . . . . . . . . . . . . . . . . . . . . . . 20
3.4. Reconstruccion tridimensional de craneos afectados por craneosinostosis primariametopica antes y despues de la cirugıa reconstructiva. . . . . . . . . . . . . . . . 21
vii
Lista de figuras viii
3.5. Fotografıa de un paciente de 5 meses de edad con craneosinostosis sagital (imagende la izquierda). A la derecha, fotografıa del mismo paciente 7 meses despues deser sometido a la cirugıa reconstructiva. . . . . . . . . . . . . . . . . . . . . . . . 21
3.6. Los clasificadores deben ser capaces de generalizar correctamente y ası poderpredecir la etiqueta de una forma nueva . . . . . . . . . . . . . . . . . . . . . . . 23
3.7. Los descriptores de forma presentados en este trabajo se calculan a partir detres imagenes de tomografıa computarizada que se seleccionan en terminos dereferencias anatomicas bien definidas. El plano A se localiza en la parte superiordel ventrıculo lateral, el plano F, en la Foramina de Munro y el plano M, al nivelde la dimension mayor del cuarto ventrıculo. NS corresponde a la sutura nasalfrontal y O el opsithion. Los ventrıculos segmentados se muestran en color azul. . 24
3.8. Representacion de la forma de un craneo determinada por los contornos orienta-dos (en sentido contrario a las manecillas del reloj) de los niveles A, F y M. . . . 24
3.9. a) Imagen de tomografıa computarizada del craneo a nivel del plano A de unpaciente afectado por craneosinostosis metopica. b) Contorno del craneo orientadoen la direccion contraria a las manecillas del reloj. c) Veintiun componentes deldescriptor de Fourier, h es la longitud de la craneo en el plano A. . . . . . . . . . 25
3.10. Calculo de las distancias de los vertices del contorno con respecto a su centroide(x, y). El centroide pude estar fuera de la region si esta es concava o tiene huecos. 25
3.11. Conjunto de todos los posibles segmentos para un contorno compuesto de N = 5vertices. Hay K = N(N−1)
2 = 10 segmentos. . . . . . . . . . . . . . . . . . . . . . 263.12. A la izquierda se ilustra un ejemplo del calculo de la IC de un contorno con 5
vertices. El vertice inicial es el 1 y el contorno se recorre en sentido contrario a lasmanecillas del reloj. La matriz resultante, es simetrica y de dimension 5× 5. Enla imagen de la derecha, se presenta la forma de un craneo con los contornos delos niveles A, F y M. En este ejemplo de un juguete el contorno se representa por3 vertices y en el esquema, se trazan los segmentos del vertice 1 a los restantes8. La longitud de los segmentos trazados constituyen el primer renglon de la ICde la forma del craneo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.13. a) Contorno orientada de un craneo afectado por cranesosinostosis sagital. b)Imagen craneal del contorno orientado representado como una funcion. c) Imagencraneal representada como una imagen (matriz de distancias normalizadas entrevertices). α corresponde a la longitud de la cabeza (constante de normalizacion)en el plano A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.14. Imagen craneal de diferentes craneos, uno normal y tres sinostoticos. . . . . . . . 283.15. Contorno representado por la secuencia compleja z(n). . . . . . . . . . . . . . . . 283.16. De izquierda a derecha: Se presenta un contorno representado con 8 vertices,
despues se muestra la IC que se construye recorriendo el contorno en sentidocontrario a las manecillas del reloj. Le sigue la etiqueta asignada a los renglonesde la IC al aplicar k-means. Finalmente, se construye el contorno simbolico conlas etiquetas asignadas a la IC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.17. Construccion de dos bolsas de rasgos que se derivan del contorno simbolico re-presentado por ocho vertices. La primer bolsa se compone de rasgos de longitud3 y la segunda con rasgos de longitud 5. . . . . . . . . . . . . . . . . . . . . . . . 32
3.18. Matriz de concurrencia usando distintos contornos craneales: normales(N), metopi-cos(M), coronales(C) y sagitales(S). . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.19. Representacion del modelo generativo LDA. . . . . . . . . . . . . . . . . . . . . . 33
Lista de figuras ix
3.20. Logaritmo de la verosimilitud como una funcion del numero K de topicos con α =50 y β = 1, calculada para una matriz de concurrencia similar a la de la Figura3.18. La matriz incluye las cinco clases de craneos de la muestra poblacional. Elerror estandar de los puntos calculados es menor que el tamano de los sımbolossombreados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.21. Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima K con la matriz de concurrencia. En el Cuadro 3.9 se dan losparametros con los que se generaron dichas graficas. . . . . . . . . . . . . . . . . 45
3.22. Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima el numero de topicos K con la matriz de concurrencia reducida.En el Cuadro 3.10 se dan los parametros con los que se generaron dichas graficas. 46
3.23. Matrices de confusion ( %) de los mejores resultados obtenidos al variar el numerode topicos en K ∈ {2, 3, 4}. Resultados con la matriz de concurrencia y la matrizde concurrencia reducida (∗) y los kernels definidos en la seccion 3.5.4: sagital(S),metopico(M), control(C). La tabla de la derecha, contiene los parametros de lasmatrices de confusion. Las areas sombreadas son los resultados mas representativos. 47
4.1. El tallo cerebral (azul) controla las actividades que el cuerpo hace automaticamente. 504.2. Imagen de RM de un paciente con glioma de tallo cerebral (flecha roja) . . . . . . 514.3. Imagenes del tallo cerebral obtenidas con RM. La primer imagen es de tejido sano
mientras que en las 2 ultimas hay presencia de BSG. En la segunda imagen sepuede intentar delimitar el tumor mientras que en la tercera se vuelve una tareacomplicada debido a que el tumor no esta bien definido en su forma, a simplevista no se puede distinguir facilmente entre el tejido sano y afectado. . . . . . . 52
4.4. Los dercriptores simbolicos de textura presentados en este trabajo se calculan atraves de imagenes de resonancia magnetica que se seleccionan en terminos dereferencias anatomicas bien definidas. . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5. Imagenes T2 de RM. La primera es de un paciente sano donde la zona de interesabarca el tallo cerebral y el cerebelo. La segunda imagen es de un paciente conBSG. La zona de interes cubre el tejido afectado por el tumor. . . . . . . . . . . 54
4.6. Mascaras utilizadas para seleccionar las regiones de interes de las imagenes de laFigura 4.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.7. Posiciones en los que se calcula la transformada SIFT con el algoritmo imple-mentado por David Lowe de las imagenes de la Figura 4.5. . . . . . . . . . . . . . 56
4.8. De izquierda a derecha: Los (∗) en la imagen senalan la posicion de puntos deinteres calculados con la transformada SIFT y sus correspondientes descriptores(vector de dimension 128). El algoritmo de k-means se aplica a todos los descrip-tores de todas las imagenes en I. El resultado es un conjunto de k clusters quese utilizan para etiquetas a los descriptores. En este ejemplo del juguete hay 3clusters etiquetados como a, b y c. . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.9. En la izquierda se presenta una imagen de dimension 3×3 en escala de grises, porel centro se muestran los niveles de gris asociados a la imagen y finalmente en laparte derecha el grafo no dirigido correspondiente a la imagen el cual esta com-puesto por υ = 9 nodos y 12 aristas. La medida de similaridad es el promedio delos niveles de gris entre 2 nodos vecinos. . . . . . . . . . . . . . . . . . . . . . . . 57
4.10. Segmentacion de una imagen en 3 regiones r1, r2, r3. Los elementos de cada regionson: r1 = {υ1, υ4}, r2 = {υ2, υ3, υ5, υ6, υ9} y r4 = {υ7, υ8}. . . . . . . . . . . . . . 58
4.11. Segmentacion de las zonas de interes de las imagenes de la Figura 4.5. Se usa elalgoritmo de Pedro F. Felzenszwalb. . . . . . . . . . . . . . . . . . . . . . . . . . 58
Lista de figuras x
4.12. Construccion de las bolsas de rasgos de una imagen. La imagen se divide en 3regiones. Las etiquetas simbolicas asociadas a cada region dan forma a las bolsasde rasgos. Las bolsas de rasgos de este ejemplo son: BR1 = {b, b, c}, BR2 = {b}y BR3 = {c, a}. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.13. Regiones generadas con el algoritmo de Felzenszwalb, el simbolo + representan lalocalizacion de las caracterısticas SIFT. Las primeras dos imagenes son de tejidosano, mientras que las dos ultimas son de tejido afectado por BSG. . . . . . . . . 59
4.14. De izquierda a derecha: MCT de tejido sano, MCT de tejido afectado por BSGy grafica que refleja la diferencia de las matrices presentadas en los primeros doscuadros de esta figura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.15. Matrices de confusion ( %): tejido sano (S) y tejido afectado por BSG (A). Resul-tados de la implementacion del Algoritmo 6. La tabla de la derecha, contienelos parametros de las matrices de confusion de la primer tabla. . . . . . . . . . . 64
4.16. Calculo de las palabras significativas variando el numero de etiquetas utilizadasen k−means (e). Las etiquetas que estan por debajo de la lınea punteada son laspalabras que se consideran significativas usando α = 0.05. La ultima grafica (se-gundo renglo, segunda columna) muestra la relacion entre el numero de etiquetasy el numero de palabras significativas obtenidas con cada una de estas . . . . . . 65
4.17. Relacion entre el tamano de la region y el numero de caracterısticas SIFT lo-calizadas en cada region. En esta grafica se incluyen regiones de tejido sano yregiones de tejido afectado por BSG. . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.18. Logaritmo de la verosimilitud como una funcion del numero K de topicos conα = 50 y β = 1, calculada para una matriz de concurrencia similar a las de laFigura 4.14. La matriz incluye las dos clases de tejido de la muestra poblacional.El error estandar de los puntos calculados es menor que el tamano de los sımbolossombreados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.19. Division de las imagenes de la primera columna usando el algoritmo de PedroF. Felzenszwalb (imagenes de la segunda columna). Las imagenes son de tejidoafectado por BSG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.20. Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primeracolumna se usa K = 3 y en la segunda K = 5. . . . . . . . . . . . . . . . . . . . . 67
4.21. Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primeracolumna se usa K = 10 y en la segunda K = 21. . . . . . . . . . . . . . . . . . . 68
A.1. Distribucion de las palabras de un vocabulario en tres topicos. A los topicos seles asocia una distribucion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
A.2. Generacion de nuevos documentos. . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.3. Modelo generativo p(d,z,w). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75A.4. Modelo generativo p(d,z,w) parametrizado. . . . . . . . . . . . . . . . . . . . . . 77A.5. Simetrıa de la distribucion de Drichlet para 3 topicos en un simplex de dimension
2. A la izquierda con α = 4 y a la derecha con α = 2. Las zonas mas oscurasındican mayor probabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
A.6. Representacion grafica del modelo LDA. El doble cırculo representa la variableobservada, un cırculo las variables no observadas (latentes). Las cajas simbolizanun proceso repetitivo. Las variables a estimar son φ, θ y z mientras que α y βson las restricciones del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
A.7. Interpretacion geometrica del modelo de topicos. . . . . . . . . . . . . . . . . . . 85
Lista de figuras xi
A.8. En la primera grafica se estima el valor de α con β = 1, mientras que en lasegunda, se estima β con α = 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.9. A la izquierda se presenta la matriz de concurrencia que es la frecuencia de laspalabras del vocabulario en los documentos, mientras que a la derecha, se estimael numero de topicos con α = 50 y β = 1. . . . . . . . . . . . . . . . . . . . . . . 90
A.10.Las 10 palabras mas frecuentes con T = 2 y T = 3. . . . . . . . . . . . . . . . . . 91
B.1. En cada octava del espacio escalar, la imagen inicial es repetidamente convolu-cionada con Gaussianas para generar un conjunto de imagenes espaciadas, comose observa en la parte izquierda. Imagenes de Gaussianas adyacentes son subs-traıdas para producir la diferencia de Gaussianas como se ve en la parte derecha.Despues para cada octava, la imagen Gaussiana es muestreada por un factor de2 y el proceso se repite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
B.2. Calculo del maximo y el minimo de D(x, y, σ) comparando el pixel muestreadocon sus 9 vecinos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
B.3. Primero se calculan las magnitudes del gradiente y la orientacion de cada ima-gen muestreada en el punto en la region alrededor de su posicion (imagen dela izquierda). Estas son pesadas por una funcion Gaussiana. Las muestras sonacumuladas en histogramas de orientacion resumiendo el contenido en ventanasde 4 × 4 subregiones (figura de la derecha), donde cada flecha corresponde a lasuma de las magnitudes del gradiente. . . . . . . . . . . . . . . . . . . . . . . . . 97
C.1. Parametros del Cuadro C.1: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ). . . . 98
C.2. Parametros del Cuadro C.2: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ). . . . 100
Indice de cuadros
3.1. Funciones de nucleo utilizadas para construir las funciones de clasificacion conlas maquinas de soporte vectorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2. Matrices de confusion ( %) con los kernels definidos en el Cuadro 3.1: sagital(S),metopico(M), control(C). Matrices de confusion que se obtuvieron con la matrizde concurrencia. Las tasas de reduccion de dimensionalidad se presentan en elCuadro 3.3 y los parametros en el Cuadro 3.4. Las celdas sombreadas, representanlos mejores resultados del cuadro. . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3. Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4. Parametros de las matrices de confusion del Cuadro 3.2: numero de topicos(K),numero de clusters para k-means (c), longitud de la palabra(λ), parametro delkernel gaussiano(γ). En todos los casos α y β valen 50 y 1 respectivamente. . . . 43
3.5. Matrices de confusion ( %) usando descriptores numericos: sagital(S), metopi-co(M), control(C). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6. Matrices de confusion ( %) con los kernels definidos en Cuadro 3.1: sagital(S),metopico(M), control(C). Las matrices de confusion se obtuvieron con la matrizde concurrencia reducida. Las tasas de reduccion de dimensionalidad se presentanen el Cuadro 3.7 y los parametros en el Cuadro 3.8. Las celdas sombreadas,representan los mejores resultados del cuadro. . . . . . . . . . . . . . . . . . . . . 44
3.7. Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.8. Parametros de las matrices de confusion del Cuadro 3.6: numero de topicos(K),numero de clusters para k-means (c), longitud de la palabra(λ), parametro delkernel gaussiano(γ). El valor de α y β son de 50 y 1 respectivamente. . . . . . . . 45
3.9. Parametros de las gaficas de la Figura 3.21: topico en el que se alcanzo el maximo(Kmax), dimension de la matriz (DM), numero de clusters para k-means (c),longitud de la palabra (λ), tiempo en horas para generar las graficas (Time). . . 45
3.10. Parametros de las gaficas de la Figura 3.22: topico en el que se alcanzo el maximo(Kmax), dimension de la matriz(DM), numero de clusters para k-means (c),longitud de la palabra(λ), tiempo en horas para generar las graficas(Time). . . . 46
3.11. Rangos de los parametros en el espacio de busqueda: numero de centros parak-means (c), longitud de las palabras (λ), numero de topicos (K), parametros delmodelo LDA (α y β), nivel de significancia para obtener la matriz de concurrenciareducida (α∗), parametro del kernel (ν) y parametro del kernel gaussiano (γ). . . 46
4.1. Rangos de los parametros en el espacio de busqueda: numero de centros para k-means (c), nivel de significancia para obtener la matriz de concurrencia reducidaα∗ y parametros del kernel (ν, γ). . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
xii
Lista de cuadros xiii
A.1. Principales encabezados de los primeros 5 dıas del mes de Julio del periodico ElUniversal, que pertenecen al documento UnivJulio. . . . . . . . . . . . . . . . . . 88
A.2. Principales encabezados de los primeros 5 dıas del mes de Julio del periodico LaJornada, que pertenecen al documento JornJulio. . . . . . . . . . . . . . . . . . . 88
A.3. Se muestran las 15 palabras con mayor probabilidad en cada topico. Las proba-bilidades de los topicos se encuentran en el primer renglon en la columna 2 y4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
A.4. Probabilidad de las 15 primeras palabras mas frecuentes en los tres topicos. . . . 91
C.1. Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matriz deconcurrencia y los kernels definidos en el Cuadro 3.1: sagital(S), metopico(M),control(C). En los cuadros de la Figura C.1, se presentan los parametros. Lasceldas en gris corresponden al mejor resultado de la tabla. . . . . . . . . . . . . . 99
C.2. Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matrizde concurrencia reducida y los kernels definidos en el Cuadro 3.1: sagital(S),metopico(M), control(C). En los cuadros de la Figura C.2, se dan los valores delos parametros de las matrices de confusion. En gris se resalta el mejor resultadode la tabla.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Glosario xiv
Angiografıa: Tecnica radiografica que emplea un colorante que se inyecta en las cavidades del
corazon o en las arterias que conducen al corazon.
Difraccion: Dispersion y curvado aparente de las ondas cuando encuentran un obstaculo.
Espectro electromagnetico: Distribucion energetica del conjunto de ondas electromagneti-
cas.
Foton: Partıcula portadora de todas las formas de radiacion electromagnetica.
Gammacamara: Camara que registra la distribucion de una sustancia quımica que contiene
un radionuclido que es atraıdo por un organo especıfico o un tejido de interes.
Hidrocefalia: Acumulacion excesiva de lıquido en el cerebro.
Hematoencefalica: Barrera entre los vasos sanguıneos y el encefalo.
Ionizacion: Proceso quımico o fısico mediante el cual se producen iones, estos son atomos o
moleculas cargadas electricamente debido al exceso o falta de electrones respecto a un
atomo o molecula neutra.
Lentes magneticas: Los electrones describen trayectorias helicoidales en el interior de un
campo magnetico longitudinal y el efecto de concentracion se obtiene por el hecho de que
despues de una o varias rotaciones, los electrones que habıan partido de un punto comun
siguiendo distintas trayectorias se vuelven a reunir en la lente en otro punto. Proporcionan
alta eficiencia de recoleccion y alta resolucion espacial.
Miliroentgens: Milesima parte de un roentgen que es la unidad internacional de dosis de
exposicion a rayos X o gamma.
Material radioactivo: Material que contiene atomos inestables -radiactivos- que emiten ra-
diacion -ionizante- a medida que se desintegran.
Nanometros: Millonesima parte del metro.
Nanoimanes: Imanes microscopicos.
Neoplasia: Proliferacion anormal de celulas en un tejido u organo.
Paramagnetico: Dicho de un material que tiene mayor permeabilidad magnetica que el vacıo
y es ligeramente atraıdo por los imanes.
Positron: Es la antipartıcula correspondiente al electron, por lo que posee la misma masa y la
misma carga electrica, aunque de signo contrario.
Paramagnetico: Tendencia de los momentos magneticos libres a alinearse paralelamente a un
campo magnetico.
Glosario xv
Radiacion termica: Radiacion emitida por un cuerpo como consecuencia de su temperatura.
Reflexion: Reflejo de la incidencia de la luz u onda que incide sobre una superficie.
Refraccion: Cambio de direccion que experimenta una onda.
Radiaciones electromagneticas: Combinacion de campos electricos y magneticos oscilantes
que se propagan a traves del espacio tranportando energıa de un lugar a otro.
Sombragrama: Posicion del objeto a examinar entre la fuente emisora de rayos y un detector
del tipo de rayo que lo convierte en senales electricas.
Capıtulo 1
Introduccion
En anos recientes, el desarrollo de tecnologıas para la captura y procesamiento de imagenes
biomedicas ha evolucionado en forma espectacular. La visualizacion de la anatomıa humana y
sus patologıas ha alcanzado un grado de resolucion que no tiene precedente. Nuevas modalidades
de captura se expanden en forma exponencial. Paradojicamente, el escrutinio clınico de imagenes
biomedicas se encuentra confinado a la interpretacion (esencialmente subjetiva) del especialista.
Por ejemplo, algunos dispositivos de captura producen imagenes espectaculares de actividad
molecular especıfica que evidencıa la presencia de procesos degenerativos. Sin embargo, los
patrones de imagenes resultantes son tan complejos, que el analisis frecuentemente se limita
al uso de metodos cualitativos o semicuantitativos. La escasez de metodos cuantitativos de
analisis obstaculiza seriamente el estudio de las relaciones causales que conectan la estructura
anatomica, su funcionamiento y los procesos patologicos que la afectan.
Figura 1.1: La primer imagen se obtuvo con rayos X convencionales mientras que las restantesson reconstrucciones volumetricas de estructuras anatomicas humanas obtenidas con equipos
modernos como la tomografıa computarizada.
El analisis de imagenes biomedicas es difıcil no solo porque los patrones de informacion codi-
ficados en las imagenes pueden ser muy intrincados, sino porque la estructura biologica puede
1
Capıtulo 1. Introduccion 2
variar significativamente en la muestra de la poblacion bajo estudio. Ademas, imagenes genera-
das con dispositivos de diseno reciente pueden contener una cantidad gigantesca de informacion
multimodal, lo que dificulta aun mas su procesamiento y analisis.
La omnipresencia de los problemas descritos en relacion a la interpretacion y analisis de image-
nes para la investigacion biomedica requiere de la creacion de nuevas metodologıas compu-
tacionales de analsis basadas en principios matematicos solidos. Las tecnicas modernas de vi-
sion computacional y aprendizaje automatico por computadora proveen un marco teorico bien
fundamentado que permite manejar cuantitativamente imagenes complejas que pueden variar
sustancialmente de individuo a individuo.
La aplicacion basica de estas tecnologıas consiste en crear una representacion estructurada
de los datos que, ademas de ajustarse a las caracterısticas biologicas del problema, admite
metodos analıticos tratables. Dicha representacion se construye sobre la base de las propiedades
particulares del dominio de interes, por medio de modelos simples que se combinan con metodos
avanzados de aprendizaje por computadora y teorıa de la informacion, para incrementar su
capacidad de modelado.
El objetivo general de este trabajo se concentra en la aplicacion de modelos simbolicos de forma
para cuantificar la morfolgıa de estructuras anatomicas. Lo anterior, con el objeto de contribuir
al conocimiento del funcionamiento de los organos que componen el cuerpo humano. De esta
manera, identificar enfermedades y la efectividad de los tratamientos terapeuticos asociados.
Este trabajo se enfoca a dos patologıas que ocurren con cierta frecuencia en el ambito de la
medicina pediatrica.
En primer lugar se aborda el problema de crear metodos efectivos para cuantificar la morfologıa
del craneo de ninos afectados por enfermedades craneofaciales complejas; especıficamente, infan-
tes que padecen craneosinostosis primaria (o aislada). En segundo lugar se aborda el problema
de crear metodos cuantitativos para caracterizar el tejido afectado por gliomas del tallo cerebral,
a partir de imagenes de resonancia magnetica.
1.1. Craneosinostosis
La craneosinostosis es una condicion patologica infantil comun que se caracteriza por la fu-
sion prematura de las suturas del craneo [1]. Normalmente, las suturas del recien nacido estan
abiertas, lo que permite el desarrollo y crecimiento del cerebro. Sin embargo, en ninos con cra-
neosinostosis, una o varias suturas del craneo se cierran prematuramente. La fusion temprana
de las suturas ocasiona severas anormalidades en la forma del craneo ya que el crecimiento oseo
se inhibe en direccion a las placas oseas que no estan cerradas.
Capıtulo 1. Introduccion 3
La craneosinostosis se dividen en sindromica y no sindromica. La craneosinostosis sindromica es
de origen congenito y generalmente ocurre en la presencia de patologıas de los sistemas circu-
latorio y musculoesqueletico del nino afectado. Usualmente varias suturas del craneo se cierran
prematuramente. Por otra parte, la craneosinostosis no sindromica (que afecta a 1 de cada
2,500 ninos recien nacidos) se subdivide en craneosinostosis primaria (solo una de la suturas se
ve afectada como se observa en la Figura 1.2) o compuesta (las dos suturas coronales se fusionan
prematuramente). Actualmente se desconocen las causas que producen la craneosinostosis no
sindromica.
Figura 1.2: Vistas frontales y laterales de la reconstruccion volumetrica del craneo de uninfante afectado por craneosinostosis metopica. La sutura afectada se senala con la flecha.
En la practica clınica era generalmente aceptado que procedimientos quirurgicos extensivos del
craneo constituıan un tratamiento efectivo para la craneosinostosis no sindromica. Sin embargo,
estudios recientes han demostrado que ninos que padecen craneosinostosis tienen una mayor pro-
babilidad de desarrollar una variedad de deficiencias neurofisiologicas que afectan el aprendizaje
y el comportamiento. Por ejemplo, Speltz et al. han sugerido que el riesgo de bajo desempeno
en ninos afectados puede ser, en promedio, cinco veces mas frecuente [2]. Magge y sus colegas
tambien identificaron deficiencias significativas en el coeficiente intelectual (IQ) en ninos que
padecen craneosinostosis aislada [3]. Virtanen et al. reportaron que en ninos que padecen cra-
neosinostosis no sindromica se observan; deficiencias auditivas, problemas de memoria a corto
plazo y deficiencias de lenguaje [4]. Pershing et al. encontraron que un 58 % de pacientes con
craneosinostosis de la sutura sagital tienen deficiencias de aprendizaje [5].
1.2. Glioma del tallo cerebral
Los gliomas del tallo cerebral son neoplasias que tienen consecuencias graves para la salud. Esta
patologıa es difıcil de abordar porque su patron de desarrollo se infiltra de manera heterogenea
dentro de la estructura anatomica. La radiologıa y los avances en resonancia magetica (RM)
han permitido mejorar la identificacion de los distintos tipo de gliomas. Tambien han permitido
orientar el tratamiento terapeutico para incrementar su efectividad. Sin embargo, los avances
son muy lentos por que a la fecha, no existen metodos cuantitativos capaces de caracterizar en
forma precisa este tipo de neoplasias a partir de imagenes de RM (en la Figura 1.3 se presenta
Capıtulo 1. Introduccion 4
una imagen de RM del tallo cerebral). La caracterizacion cuantitativa del tejido es fundamental
para el desarrollo de nuevas tecnologıas que permitan pronosticar el estado de salud de un
individuo afectado, ası como desarrollar nuevas tecnicas efectivas de tratamiento. La creacion
de dichas tecnologıas es particularmente importante para la poblacion infantil. Esto se debe a
que los tratamientos actuales tienen un efecto en la calidad de vida de los ninos afectados.
Figura 1.3: Imagen del tallo cerebral obtenida con resonancia magnetica.
1.3. Motivacion
El presente trabajo se desarollo con el objeto de cumplir con los requerimientos de graduacion en
el programa de maestrıa del Centro de Investigacion en Matematicas (CIMAT). La idea basica
para cumplir con este requerimiento consistio en seleccionar un tema en el area del analisis
de senales de imagenes biomedicas que tiene que ver con la creacion de metodos cuantitativos
para caracterizar la anatomıa humana y sus patologıas. La tematica es vasta, compleja y tiene
aplicaciones importantes en todas las areas de la medicina.
En este trabajo solo se abordan dos aplicaciones de los descriptores simbolicos de forma que se
construyen sobre la base de modelos probabilısticos Bayesianos. Para abordar estas aplicaciones
desde un punto de vista practico se establecio que era conveniente hacer una revision bibliografica
que considera:
los metodos modernos de imagenologıa medica;
la importancia y limitaciones de las imagenes medicas en el ambito clınico, y
la importancia practica del analisis cuantitativo de imagenes medicas por medio de modelos
simbolicos de forma.
El contenido de esta tesis se estructuro sobre la base de esta revision bibliografıca. Dicho con-
tenido se describe a continuacion.
Capıtulo 1. Introduccion 5
En el Capıtulo 2 se presenta una descripcion del uso y el funcionamiento de las distintas moda-
lidades imageneologicas para obtener informacion detallada del cuerpo humano. Las imagenes
generadas con herramientas como la termografıa, la microscopıa, la tomografıa computarizada
y la resonancia magnetica por mencionar solo algunas, son ampliamente usadas por los medicos
para detectar y estudiar la evolucion de diversas enfermedades. En el Capıtulo 3 se desarrolla
una metodologıa basada en un modelo Bayesiano jerarquico para cuantificar y clasificar malfor-
maciones del craneo causadas por craneosinostosis primaria. Se utilizan descriptores simbolicos
de forma para caracterizar las deformaciones del craneo tomando como base un conjunto de
imagenes de tomografıa computarizada (TC). En este capıtulo se hace una descripcion deta-
llada de las metodologıas que han sido propuestas en la literatura para construir descriptores
simbolicos de forma. Ademas, se presentan los resultados de un estudio en el que se compara
el desempeno de clasificacion de descriptores numericos tradicionales con el desempeno de los
descriptores simbolicos. En el Capıtulo 4 se desarrollan descriptores simbolicos de textura con
el objeto de construir clasificadores que permitan diferenciar entre tejido sano y tejido afectado
por glioma del tallo cerebral. Se presentan ademas los resultados de una serie de experimentos
de clasificacion que sugieren que el problema fundamental para caracterizar tejido tumoral a
partir de imagenes de RM, es el de desarrollar rasgos de textura discriminativos. El Capıtulo
5 concluye la tesis.
Capıtulo 2
Imagenologıa medica
El cuerpo humano esta formado por una variedad de sistemas que incluyen el cardiovascular, el
musculo-esqueletico y el nervioso central. Cada uno de ellos esta compuesto por subsistemas que
se encargan de ejecutar procesos fisiologicos complejos. Estos abarcan mecanismos de regulacion
hormonal, percepcion sensorial, control motor y funciones autonomas, tales como la respiracion
y el ritmo cardıaco. Alteraciones en la estructura anatomica y/o funcional de algun sistema u
organo del cuerpo, da origen a una enfermedad.
La imagenologıa medica es un conjunto de tecnicas que se utilizan para obtener informacion
del cuerpo, o partes de el, con el proposito de diagnosticar o examinar la evolucion de enferme-
dades. Acceder a los sistemas internos del organismo vivo es difıcil y riesgoso. Sin embargo, en
anos recientes se han desarrollado diversas tecnologıas que han permitido un mejor estudio y
visualizacion de las estructuras internas del cuerpo humano.
Mientras que hasta hace relativamente poco tiempo la informacion medica en forma de imagenes
se limitaba a las placas de rayos X convencionales, en la actualidad los medicos disponen de
diversas modalidades imagenologicas. La imagenologıa medica incorpora disciplinas como las
ciencias radiologicas, la endoscopıa, la termografıa y la fotografıa y la microscopıa entre otras.
En este capıtulo se presenta una breve resena de las tecnicas imagenologicas que se utilizan con
mas frecuencia en la practica clınica y la investigacion. La fuente bibliografica de la informacion
contenida en este capıtulo proviene de libros y de pagınas de internet debidamente referenciadas.
2.1. La Termografıa
El ser humano es una fuente de calor natural capaz de preservar su temperatura corporal. La
interfaz entre la fuente de calor y el medio ambiente es la piel. La piel es un organo dinamico que
se ajusta continuamente para compensar las condiciones internas y externas del cuerpo. Algunas
6
Capıtulo 2. Imagenologıa medica 7
enfermedades infecciosas o degenerativas causan un incremento en la temperatura corporal. La
termografıa medica es una herramienta muy util para el diagnostico de algunas anormalidades
en el organismo que se manifiestan como variaciones inusuales de la temperatura del cuerpo
(Figura 2.1) [6].
La superficie de la piel se puede modelar como un campo escalar, donde la temperatura es una
magnitud f que representa el estado termico del cuerpo en una posicion especıfica. La posicion
esta determinada por las coordenadas espaciales (x, y, z) y un tiempo dado t. Cuando se calcula
la temperatura de un individuo en un perıodo de tiempo se produce una senal (1D) en funcion
del tiempo f(t). Ahora bien, si se mide la temperatura del cuerpo en cada posicion espacial en
un instante de tiempo se genera una funcion de la distribucion de la temperatura (4D) de la
forma f(x, y, z, t) [7]. Las unidades utilizadas para medir la temperatura y el tiempo son los
grados Celcius ( ◦C) y los segundos (s) respectivamente.
La temperatura corporal se mide con una camara infrarroja. Las radiaciones infrarrojas se en-
cuentran entre las zonas visibles e invisibles del espectro electromagnetico. La principal fuente
de radiacion infrarroja es el calor o radiacion termica. Cualquier objeto que tenga una tempe-
ratura por encima del 0 absoluto (−273.15◦C) emite una radiacion en la zona de infrarrojos
[8]. El cuerpo humano esta expuesto a la radiacion cada dıa y aunque no sea posible verla, los
nervios de la piel la perciben como calor.
Figura 2.1: Imagen generada con termografıa. Muestra la distribucion de la temperatura enla superficie del objeto en estudio.
Actualmente, las camaras infrarrojas generan imagenes termicas nıtidas y de alta resolucion.
La termografıa es un metodo no invasivo, rapido y fiable que se usa para captar los cambios
de conductividad termica de la piel producidos por quemaduras, ulceraciones o injertos. Otras
aplicaciones comunes de la termografıa incluyen la deteccion precoz del cancer de piel y de
mama.
Una de las principales ventajas de la termografıa es que produce un patron completo de la pato-
logıa en tiempo real, ademas de revelar cambios funcionales en organos y tejidos de organismos
vivos antes de que cambios morfologicos asociados a la patologıa se presenten.
Capıtulo 2. Imagenologıa medica 8
2.2. La Transiluminacion
Los organismos vivos estan compuestos por celulas, la mayorıa de estas se agrupan y dan forma
a los tejidos biologicos. Cuando se proyecta un haz de luz sobre los tejidos se producen dos
fenomenos de manera simultanea. La absorcion y la dispersion. El primer fenomeno se refiere a
la cantidad de fotones absorbidos por el tejido y el segundo a la proporcion de fotones reflejados.
La presencia de determinados pigmentos y elementos cromatoforo (como la melanina, la hemo-
globina, la mioglobina, etc.) marcan las diferencias de absorcion de un tejido a otro. La absorcion
de la luz tambien depende de la actividad metabolica de los tejidos.
Las variaciones espaciales en la absorcion luminosa de los tejidos se utilizan para formar som-
bragramas como el de la Figura 2.2. A esta tecnica se le conoce como transiluminacion [9].
La transiluminacion se ha usado para diagnosticar hidrocefalia en recien nacidos. Cuando se
proyecta un haz de luz en la cabeza de un nino con hidrocefalia, las zonas que estan anormal-
mente llenas de aire o lıquido se iluminan. La transiluminacion tambien se usa para detectar
hemorragias cerebrales y quistes o lesiones mamarias (la atenuacion de la luz es mayor en los
tumores de mama que en los tejidos adyacentes) [10].
Figura 2.2: Imagen de la superficie anterior de la retina obtenida con transiluminacion.
No existen riesgos a la salud asociados con esta tecnica. En general, la transiluminacion es
un examen medico poco confiable. Para confirmar el diagnostico de un trastorno, el medico
regularmente necesita examenes adicionales.
2.3. La Microscopıa
La microscopıa es una tecnica en la que un haz de luz pasa a traves de un sistema de lentes
que producen un campo brillante, el cual, permite observar pequenos objetos. Este metodo
generalmente implica fenomenos fısicos como la difraccion, la reflexion y la refraccion de la
radiacion incidente sobre el objeto de estudio.
El microscopio electronico consiste en un canon de electrones y lentes magneticas. Un generador
de barrido es el responsable de producir el movimiento de un haz de electrones, con la finalidad
Capıtulo 2. Imagenologıa medica 9
de barrer la muestra punto a punto. Los electrones atraviesan la muestra y el conjunto de lentes
magneticas la amplifican formando una imagen sobre una placa fotografica o sobre una pantalla
sensible al impacto de los electrones que posteriormente transfiere la informacion generada a
una computadora [11].
Para poder analizar las muestras biologicas con el microscopio electronico, estas deben ser
preparadas por medio de fijacion, deshidratacion, infiltracion (en parafina o algun tipo de resina),
seccionamiento en cortes finos, tincion y montaje sobre una laminilla de cristal.
El seccionamiento permite que el haz de luz atraviese la muestra; mientras que la tincion es ge-
neralmente requerida para poder distinguir partes de la muestra que son incoloras. Comunmente
se aplica lo que se conoce como tincion diferencial, en la cual se emplean dos o mas tintes de colo-
res contrastantes que tienen afinidad por distintas partes de la muestra bajo estudio. Para tener
una imagen detallada debe haber una correspondencia entre la parte optica y la concentracion
en la muestra.
Figura 2.3: La imagen de la izquierda muestra detalles de las bacterias (bacilos) que mi-den aproximadamente una micra, mientras que la segunda imagen es de celulas obtenida con
fluorescencia microscopica.
Esta herramienta permite el estudio detallado de microorganismos como bacterias y hongos
(Figura 3.5) magnificando las muestras entre 40 y 100 veces su tamano normal, sin embargo, la
resolucion se reduce por factores como la difraccion, el astigmatismo, la aberracion cromatica,
la aberracion esferica y la distorsion geometrica [7]. Las unidades de medicion que se utiliza en
microscopıa son el micron (µ) que es la milesima parte del milımetro y el angstrom (A), definido
como la diez millonesima parte del milımetro.
La mayor utilidad de la microscopıa en el area medica es en la oncologıa y se usa para el
diagnostico de neoplasias. Tambien se utiliza para detectar enfermedades metabolicas y ampo-
llares de la piel.
Capıtulo 2. Imagenologıa medica 10
2.4. Las Imagenes de rayos X
Los rayos X son radiacion electromagnetica que se distingue por su longitud de onda (entre 10 y
0.1 nanometros) . Estos se producen por la desaceleracion rapida de electrones muy energeticos
al chocar con un blanco.
La produccion de rayos X se lleva a cabo en un tubo de rayos X que contiene dos electrodos en
sus extremos, el catodo y el anodo. El tubo puede variar dependiendo de la fuente de electrones
y este puede ser de dos clases, tubos con filamento o tubos con gas.
El tubo con filamento es un tubo de vidrio al vacıo. El catodo, es un filamento caliente de
tungsteno, mientras que el anodo es un bloque de cobre. Los electrones generados en el catodo
son enfocados hacia un punto en el blanco y como resultado de la colision se producen los rayos
X. El anodo es refrigerado continuamente mediante la circulacion de agua pues gran parte de la
energıa que se produce al chocar los electrones con el blanco se transforma en energıa termica.
En el tubo con gas, hay una presion de aproximadamente 0.01 mmHg (milımetros de mercurio).
A diferencia del tubo con filamento, el catodo es de aluminio y concavo. Las partıculas ionizadas
de nitrogeno y oxıgeno, presentes en el tubo, son atraıdas hacia los extremos. Los iones positivos
son atraıdos por el catodo. Posteriormente, los electrones son acelerados hacia el anodo que al
colisionar producen los rayos X. El sistema de refrigeracion para el anodo es el mismo que se
utiliza en un tubo con filamento.
Cuando los rayos X interactuan con la materia, parte de estos se absorben y otros se reflejan. Esta
caracterıstica permite obtener las radiografıas. La absorcion de rayos X depende esencialmente
del area que atraviesan, la densidad de la materia y de la intensidad del rayo.
El paso de los rayos X por el cuerpo humano depende de la zona expuesta. Por ejemplo, los
tejidos blandos del cuerpo (como la sangre, piel, grasa y musculo) permiten que la mayorıa de
los rayos los atraviesen (zonas en gris oscuro de una radiografıa), mientras que los huesos (mayor
densidad) no permiten el paso de estos (zonas mas claras de una radiografıa) [7].
En la medicina, las radiografıas son comunmente usadas para detectar anormalidades en la
estructura osea del cuerpo (Figura 2.4), aunque tambien se utilizan para diagnosticar enferme-
dades de los tejidos blandos como la neumonıa, cancer de pulmon y abscesos [12].
La manera en como la radiacion afecta la salud del paciente expuesto a esta fuente de energıa
depende de la cantidad de la dosis de radiacion a la que es sometido. Al ano, una persona
esta expuesta a aproximadamente 100 miliroentgens de radiacion que proviene de fuentes como
el sol y de pequenos rastros de isotopos radiactivos. Durante una exposicion simple de rayos
X, el paciente recibe aproximadamente 20 miliroentgens de radiacion. La exposicion excesiva
Capıtulo 2. Imagenologıa medica 11
Figura 2.4: Radiografıas de distintas partes del cuerpo humano.
puede producir efectos tales como quemaduras de piel, caıda de cabello, defectos de nacimiento
y cancer entre otros por mencionar.
2.5. La Tomografıa computarizada
En los anos 70, los fısicos, Alian MacLeod Cormack y Godfrey Newbold Hounsfield desarrollaron
una tecnica basada en rayos X a la que denominaron tomografıa computarizada (TC). MacLeod
penso que si se podia obtener un numero suficiente de proyecciones de rayos X a distintos
angulos se generarıa informacion suficiente para cuantificar y visualizar la estructura interna del
organismo. Hounsfield calculo la exactitud teorica de la tecnica, concluyendo que, con niveles
normales de radiacion podrıa medirse el valor absoluto del coeficiente de atenuacion con una
fiabilidad mayor al 95 %. Sin embargo, para aplicar la tecnica propuesta por MacLeod al area
medica hubo que esperar al desarrollo de la computacion y del equipo adecuado, que en conjunto,
tuvieran la capacidad de obtener multiples imagenes axiales separadas por pequenas distancias,
almacenar electronicamente los resultados y posteriormente procesarlos [9].
El equipo de TC emite un haz muy fino de rayos X sobre el objeto de estudio. Parte de la
radiacion emitida atraviesa el objeto y la radiacion no absorbida es recogida por unos detectores
en forma de espectro. Acto seguido, se envıa la informacion a una computadora. Luego, el emisor
del haz, que tenıa una orientacion determinada (por ejemplo, 90◦) cambia su orientacion (por
ejemplo, 95◦) y despues de emitir el haz de rayos X los detectores recogen el espectro y envıan la
informacion a la computadora. En la computadora se suman las dos imagenes, promediandolas.
Nuevamente, el emisor cambia su orientacion (segun el ejemplo, unos 100◦). Los detectores
nuevamente recogen el espectro y en la computadora se suma a los anteriores promediando los
datos. Esto se repite hasta que el tubo de rayos X y los detectores han dado una vuelta completa,
momento en el que se dispone de una imagen tomografica del cuerpo como si fuera una rodaja.
La imagen final es definitiva y fiable. En la Figura 2.5 se muestra un esquema del proceso antes
descrito.
Capıtulo 2. Imagenologıa medica 12
Figura 2.5: Esquema de la obtencion de imagenes con tomografıa computarizada. Se emitenrayos desde distintas posiciones, la informacion es recogida por los detectores y posteriormenteprocesada en una computadora para finalmente obtener una imagen fiable y detallada del objeto
de estudio.
Para entender el funcionamiento de la computadora observe la Figura 2.6. Suponga que el cırculo
simboliza el area del cuerpo que se desea estudiar. El color negro representa el hueso (densidad
elevada), mientras que el gris representa el musculo (densidad media). En el esquema 1 y 2
se visualiza la imagen (cuadrado) resultado de una sola incidencia o proyeccion (90◦ y 180◦
respectivamente). En el esquema 3, se observa la imagen derivada de la informacion procesada
del esquema 1 y 2 por la computadora. Aquı, la zona de sombra ya esta limitada al centro
de la figura, pero la imagen presenta unos perfiles muy diferentes al objeto que se estudia (un
cuadrado en vez de un cırculo). Finalmente, en el esquema 4, la computadora dispone de datos
de cuatro incidencias: 45 %, 90 %, 135 % y 180 %. Los perfiles de la imagen son octogonales, que
es una mejor representacion del objeto real.
Figura 2.6: Esquema de la manera en como opera la computadora con la informacion recolec-tada por los detectores. El cırculo representa el objeto a estudiar mientras que el rectangulo la
imagen generada por la computadora.
El proceso descrito hasta este momento sirve para generar una sola imagen tomografica del ob-
jeto de estudio. Una vez obtenida la primer imagen, la mesa donde se encuentra el objeto avanza
(o retrocede) una unidad de medida (hasta menos de un milımetro) y el proceso se vuelve a re-
petir para obtener una segunda imagen tomografica. Se puede generar un conjunto de imagenes
transversales (axiales) que puden utilizarse para realizar una reconstruccion tridimensional del
objeto, como la que se observa en la Figura 2.7 [7].
Capıtulo 2. Imagenologıa medica 13
Figura 2.7: Reconstruccion en 3D de imagenes obtenidas con tomografıa computarizada.
Los equipos de TC han tenido un avance tecnologico significativo y se han desarrollado distintas
variantes, como la TC de alta resolucion (de menos de un decimo de pulgada), la TC helicoidal o
espiral (el objeto y el haz se mueven simultaneamente) y la TC ultrarrapida (produce imagenes
en forma eficiente creando pelıculas de las partes moviles) por mencionar algunas.
Los estudios de TC se usan comunmente por especialistas medicos para estudiar vasos san-
guıneos, identificar tumores, guiar a un cirujano hacia el area correcta durante una biopsia, etc.
El equipo de TC crea niveles bajos de radiacion ionizante. Por esta razon el riesgo en el paciente
aumenta a medida que se llevan a cabo numerosos estudios.
2.6. La Resonancia magnetica
Un equipo de resonancia magnetica (RM), esta compuesto por un conjunto de emisores elec-
tromagneticos, antenas receptoras de radio frecuencia y computadoras donde se procesan datos
para producir imagenes detalladas, de dos o tres dimensiones con gran precision.
La RM se basa en el hecho de que ciertos nucleos atomicos, en particular los protones contenidos
en un atomo de hidrogeno se comportan como nanoimanes. Ahora bien, si se aplica un campo
magnetico de suficiente intensidad (1 a 3 teslas)[7], los protones se alınean en el sentido del
campo; una vez alineados, se someten a una senal de radiofrecuencia, los nucleos se perturban
y rotan en direccion del campo especificado por la senal. Si la senal cesa, los nucleos vuelven a
alinearse con el campo magnetico, retornando a su posicion original. El perıodo de tiempo que
los nucleos tardan en regresar a su posicion original se le conoce como tiempo de relajacion.
Durante el tiempo de relajacion se libera energıa y se emiten senales de radio que son captadas
por un receptor y analizadas en una computadora en el que se transforma la informacion en
imagenes.
Para generar la imagen por RM, se utiliza la informacion de la distribucion del hidrogeno en el
organismo. Como el hidrogeno es un componente de las moleculas de agua, la imagen de RM
Capıtulo 2. Imagenologıa medica 14
mostrara su distribucion en cualquier region anatomica; ademas, como la duracion de la senal
emitida (tiempo de relajacion) esta influıda por la combinacion quımica de las moleculas de
agua, las imagenes de RM pueden discriminar los diferentes tipos de tejidos presentes en la zona
de estudio (Figura 2.8) [9].
Sin embargo, dado que los tiempos de relajacion son distintos para diferentes tejidos, los tiempos
se solapan y no proporcionan una informacion especıfica. Por ello, se han desarrollado agentes
de contraste (iones paramagneticos) que incrementan el poder discriminatorio de la RM. La
eficacia de los agentes de contraste en imagenes de RM depende de su capacidad de modificar
las propiedades magneticas de los protones, en especial su tiempo de relajacion en la molecula
de agua con la que interactuan.
Figura 2.8: Imagenes obtenidas con resonancia magnetica.
La RM ha resultado una tecnica muy util aplicada a la medicina por ofrecer varias ventajas,
entre las que podemos mencionar las siguientes: a) un mayor contraste entre tejidos blandos,
b) la capacidad para realizar imagenes de obtencion directa en cualquier orientacion y lugar en
el espacio, c) proporciona informacion morfologica, funcional y bioquımica y d) la posibilidad
de realizar angiografıas sin contraste y la rapidez para generar las imagenes que es superior
a los movimientos fisiologicos del organismo. Los factores antes mencionados, hacen de la RM
una de las tecnicas mas poderosas de diagnostico para estudiar diferentes patologıas, como las
cardiovasculares. Ademas de descartar alteraciones presentes en los organos y los tejidos del
cuerpo humano.
La RM involucra agentes fısicos que deben ser tratados cuidadosamente y que implican riesgos
que deben ser permanentemente vigilados como: la intensidad del campo magnetico, las corrien-
tes inducidas por los gradientes y en especial el deposito calorico de la radiofrecuencia. Estas
son muestras de que la aplicacion de esta tecnologıa debe de contar con un programa de control
de calidad que permite detectar, o descartar, alteraciones en los organos y los tejidos del cuerpo
humano, evitando procedimientos molestos y agresivos.
Capıtulo 2. Imagenologıa medica 15
2.6.1. Resonancia y relajacion
La absorcion de energıa por resonancia de los protones del nucleo ocurre cuando un campo
oscilatorio externo interactua con las partıculas del nucleo a la frecuencia de Larmor. El vec-
tor de magnetizacion neto del nucleo tiene dos componentes. La magnetizacion longitudinal se
debe a un pequeno exceso de protones que se encuentran en estados bajos de energıa. Esto da
origen a una polarizacion neta paralela al campo de excitacion externa. Con un pulso de radio
frecuencia es posible destruir o revertir a este vector de polarizacion. El vector de magnetizacion
transverso se origina por la coherencia que existe entre dos estados de energıa de los protones
cuando se aplica un pulso de radiofrecuencia de 90 grados al nucleo. Esto da origen a una pola-
rizacion perpendicular al campo externo de excitacion en el plano transverso. La recuperacion
de magnetizacion longitudinal se denomina relajacion T1 y ocurre exponencialmente con una
constante de tiempo T1. La perdida de coherencia en el plano transveral se denomina relajacion
transversal T2. Estas dos mediciones en imagenes utilizando los dos diferente tipos de relaja-
cion, dan origen a dos tipos diferentes de imagenes de resonancia magnetica, que proporcionan
informacion complementaria respecto a la anatomıa bajo estudio (Figura 2.9).
Figura 2.9: Imagenes de resonancia magnetica. La imagen de la izquierda se obtienen conmediciones T1, mientras que la de la derecha se genera con mediciones T2.
2.7. Imagenes de medicina nuclear
Un estudio de medicina nuclear consta de tres fases: administracion del trazador (tambien
llamado radiofarmaco o radiosonda), toma de imagenes e interpretacion de las mismas. Los
radiofarmacos estan compuestos de un farmaco transportador y un isotopo radiactivo. La ra-
diosonda se introduce al organismo vıa intravenosa, vıa oral o se inhala como gas dependiendo
del tipo de examen de medicina nuclear al que se somete el paciente. Una vez que el radiofarmaco
se ha introducido al organismo, este se acumula en el area del cuerpo a examinar. El trazador,
emite energıa en forma de rayos gamma (fotones emitidos por elementos radiactivos) [7]. La
energıa emitida se detecta con un dispositivo denominado gammacamara y un escaner. Estos
Capıtulo 2. Imagenologıa medica 16
dispositivos trabajan conjuntamente con una computadora para medir la cantidad de radio-
sondas absorbidas por el cuerpo y para producir imagenes especiales que proporcionan detalles
de la estructura y del funcionamiento de los organos y otras partes internas del organismo. Al
proceso de adquisicion de las imagenes durante la administracion del trazador se le conoce como
gammagrafıa.
Entre los procedimientos de medicina nuclear podemos encontrar la tomografıa por emision de
positrones y la tomografıa por emision de fotones, los cuales, se explicaran posteriormente en
esta seccion. Estas tecnicas generalmente constituyen examenes medicos indoloros.
Una de las principales desventajas de este metodo es que los procedimientos pueden llevar
mucho tiempo, dependiendo del tejido del cuerpo que va a examinarse y del trazador utilizado.
Las radiosondas pueden tardar horas en acumularse en la zona de interes, en consecuencia el
diagnostico por imagenes puede llevar un tiempo considerable.
Al evaluar el comportamiento del radionuclido en el cuerpo durante una gammagrafıa, el medico
puede evaluar y diagnosticar diversos trastornos, como tumores, abscesos, hematomas, agran-
damiento de los organos o quistes. Esta tecnica tambien puede utilizarse para evaluar el funcio-
namiento de los organos y la circulacion de la sangre.
2.7.1. La Tomografıa por emision de positrones
La tomografıa por emision de positrones (PET por sus siglas en ingles Positron Emission To-
mography), es una tecnica propia de la medicina nuclear. Es una herramienta capaz de medir
la actividad metabolica de los diferentes tejidos del cuerpo humano, especialmente del siste-
ma nervioso central. Se basa en la deteccion y analisis de la distribucion de un radioisotopo
en el interior del cuerpo administrado vıa intravenosa. Mide la produccion de fotones gamma
(resultado de la aniquilacion de un positron).
La PET utiliza las propiedades fısicas de los radioisotopos emisores de positrones. Tras una
corta distancia (dependiendo de su energıa cinetica), el positron colisiona con un electron, pro-
duciendose un suceso de aniquilacion, cuya energıa se disipa en forma de dos fotones, de identica
y constante energıa que divergen (aproximadamente, 180◦). Los fotones, que se proyectan por
tanto en direcciones divergentes, se detectan mediante sensores (Figura 2.10)[9].
De los radioisotopos emisores de positrones de utilidad medica destaca el Fluor-18, capaz de
unirse a la glucosa. La posibilidad de poder identificar, localizar y cuantificar el consumo de
glucosa por las diferentes celulas del organismo, ofrece un metodo importante para el diagnostico
medico, puesto que muestra que areas del cuerpo tienen un metabolismo glucıdico elevado.
Un elevado consumo de glucosa es, precisamente, la caracterıstica primordial de los tejidos
neoplasicos por lo que permite localizar los focos de crecimiento celular anormal en todo el
Capıtulo 2. Imagenologıa medica 17
Figura 2.10: Imagenes del cerebro obtenidas con tomografıa por emision de positrones.
organismo en un solo estudio e independientemente de la localizacion anatomica donde asiente
la neoplasia (primaria o metastasica), ya que la PET no evalua la morfologıa de los tejidos, sino
su metabolismo [13]. La PET puede estudiar el aporte local de sangre y los consumos de oxıgeno,
acidos grasos, aminoacidos y de cualquier otro metabolito del metabolismo intermediario. Tales
datos son aplicables al estudio de un organo dado, en especial en cuadros isquemicos (cerebrales o
miocardicos), cuadros neurodegenerativos o de diferentes tumores. La PET es una herramienta
para estudiar y medir diversas actividades cerebrales: metabolismo de glucosa, consumo de
oxıgeno, flujo sanguıneo e interacciones de diferentes farmacos y drogas. Ello permite estudiar
los mecanismos de las reacciones quımicas en vivo como las bases moleculares de la adicion a las
drogas, del sındrome de abstinencia, del envejecimiento, de diferentes trastornos neurologicos y
de diversas enfermedades mentales.
2.7.2. La Tomografıa por emision de fotones
La tomografıa por emision de foton unico (SPECT) utiliza radioisotopos naturales emisores de
fotones. Los fotones son paquetes minienergeticos de radiacion electromagnetica que se emiten
en procesos de desintegracion nuclear. La deteccion de estos fotones se realiza siguiendo los
mismos principios que la PET. Las resoluciones espacial y temporal de la SPECT son inferiores
a las de la PET [9].
2.8. Formato de las imagenes medicas
El numero de dispositivos que obtienen imagenes digitalizadas es muy grande. En general, cada
uno hace uso de un formato distinto, aunque todos tienen la caracterıstica comun de almacenar
la imagen y la informacion textual vinculada a ella en campos separados. Con la necesidad de
intercambiar imagenes provenientes de dispositivos de diferentes fabricantes surgieron intentos
por crear formatos unificados, entre ellos el mas conocido es el DICOM (Digital Imaging and
Communication in Medicine) que es un formato estandar que define todas las estructuras y
Capıtulo 2. Imagenologıa medica 18
formatos de ficheros, ası como los mensajes y protocolos para la transmision de imagenes a traves
de una red de comunicaciones. El formato DICOM tambien define metodos para implementar
polıticas de seguridad, principalmente basadas en criptografıa.
Dentro del grupo tematico constituido por las imagenes medicas, se pueden diferenciar las
siguientes areas principales:
Adquisicion de imagenes medicas: Se ocupa del hardware utilizado para la adquisicion de
imagenes medicas y los algoritmos asociados, en especial aquellos que se usan en la re-
construccion tridimensional.
Tratamiento y analisis de imagenes: Se estudian las tecnicas de filtrado y mejora de las
imagenes medicas, para eliminar el ruido y senales espureas, ası como los metodos de
segmentacion que permiten separar y extraer las estructuras de interes dentro de una
imagen. Segun la naturaleza de las imagenes y de la aplicacion, se procesa en dos o tres
dimensiones. La visualizacion se ocupa de la exploracion, representacion y manipulacion de
los datos (especialmente, imagenes tridimensionales). La gran cantidad de datos medicos
en forma de imagenes, ası como su naturaleza predominantemente tridimensional, hace
que la visualizacion tenga en la medicina uno de sus campos de aplicacion mas naturales
para facilitar al especialista el manejo y aprovechamiento de la informacion.
Sistemas de acceso y almacenamiento: Los sistemas de archivo y de comunicacion de
imagenes medicas, denominados sistemas PACS (Picture Archiving and Communication
Systems), almacenan las imagenes medicas digitalizadas en conexion con los sistemas de
informacion de los departamentos de radiologıa y permiten su acceso en red. Las imagenes
medicas siguen el estandar normalizado DICOM.
Capıtulo 3
Modelos simbolicos para el analisis
de malformaciones craneales
causadas por craneosinostosis
primaria
3.1. Introduccion
El craneo es la estructura osea que contiene y protege al encefalo. Este se compone por la
articulacion de ocho huesos que al momento del nacimiento no se encuentran fusionados ni
compleamente osificados, dejando huecos y zonas cubiertas por tejidos fibrosos conocidos como
suturas y fontanelas (Figura 3.1). Las suturas son lıneas que durante la vida fetal y los primeros
meses de vida del infante separan los huesos que constituyen la boveda del craneo; los huecos
que quedan en la confluencia de las suturas se les conocen como fontanelas [14].
Hueso frontal
Hueso occipital
Fontanela posterior
Sutura sagital
Hueso parietal
Fontanela anterior
Fontanela mastoidea
Sutura escamosa
Fontanela esfenoidal
Sutura lamboidea
Sutura coronal
Vista LateralVista Superior
Figura 3.1: El craneo es la estructura osea que protege al cerebro con los huesos temporales,frontales, parietales y occipitales. En la imagen se muestra la posicion de las suturas y las
fontanelas.
19
Capıtulo 3. Craneosinostosis primaria 20
Durante el desarrollo de los huesos del craneo hay cierta complacencia y flexibilidad que permiten
el crecimiento del encefalo [15]. La fusion de dos o mas huesos para formar uno solo se conoce
como sinostosis. Cuando la sinostosis entre dos placas craneales ocurre tempranamente durante
el desarrollo fetal, el crecimiento del craneo se inhibe en direccion perpendicular a la sutura
cerrada, en la direccion de las suturas abiertas, provocando un crecimiento anormal de la forma
del craneo. A esta fusion prematura de dos placas craneales se conoce como craneosinostosis
primaria.
Entre las craneosinostosis primarias mas comunes se encuentra la sagital, la metopica y la
coronal (Figura 3.2) [16]. La forma de un craneo con sinostosis sagital esta caracterizada por un
craneo largo y estrecho, con una prominencia frontal y occipital. La craneosinostosis metopica
se caracteriza por una frente estrecha y triangular. La sinostosis coronal esta caracterizada por
un achamiento del hueso frontal.
Figura 3.2: Craneos afectados por craneosinostosis primaria.
La craneosinostosis primaria es la forma mas comun de las sinostosis, con una prevalencia de
aproximadamente 1 en cada 2500 recien nacidos [1]. La craneosinostosis primaria es un defecto
de nacimiento relativamente comun y se presenta con frecuencia en instituciones hospitalarias
y centros de atencion neonatal (Figura 3.3).
Figura 3.3: Fotografıas de pacientes con craneosinostosis primaria. De izquierda a derecha:la imagen de un recien nacido de 1.5 meses afectado por sinostosis sagital; la imagen de unbebe de 3 meses con sinostosis metopica, la fotografıa de un paciente de 6 semanas de nacido
con sinostosis coronal.
La presencia de craneosinostosis primaria esta asociada con un incremento en la probabilidad
de padecer deficiencias cognitivas, ası como problemas de lenguaje, aprendizaje e importantes
trastornos de comportamiento.
Capıtulo 3. Craneosinostosis primaria 21
Actualmente, el unico tratamiento para la craneosinostosis es el remodelado quirurgico del
craneo que tıpicamente se realiza en las primeras semanas de vida (Figura 3.4). En general, el
remodelado quirurgıco del craneo mejora la calidad de vida del paciente afectado. En la Figura
3.5 se muestra un paciente afectado por craneosinostosis sagital antes y siete meses despues de
la cirugıa reconstructiva.
Figura 3.4: Reconstruccion tridimensional de craneos afectados por craneosinostosis primariametopica antes y despues de la cirugıa reconstructiva.
Figura 3.5: Fotografıa de un paciente de 5 meses de edad con craneosinostosis sagital (imagende la izquierda). A la derecha, fotografıa del mismo paciente 7 meses despues de ser sometido a
la cirugıa reconstructiva.
El diagnostico de la craneosinostosis comienza con un examen fısico detallado. El medico, mide
la circunferencia de la cabeza del infante y realiza un tacto cuidadoso del craneo para detec-
tar los bordes de las suturas y los puntos debiles. La evaluacion tambien requiere de estudios
que utilizan tecnicas de imagenologıa medica, tıpicamente tomografıa computarizada. Los estu-
dios imageneologicos permiten al medico confirmar su diagnostico. Sin embargo, hoy en dıa, la
evaluacion medica es de caracter descriptivo y se basa esencialmente en la inspeccion visual y
subjetiva de las imagenes de TC [1].
Formulaciones clınicas sugieren que existe una lınea causal directa en la que una mutacion
genetica (aun no especificada) produce deficiencias cerebrales que no estan necesariamente aso-
ciadas a la morfologıa craneal [17]; otra hipotesis sugiere que el crecimiento del cerebro dentro
de un craneo malformado impide el desarrollo normal de las estructuras cerebrales [18]. Des-
afortunadamente, el estudio de la craneosinostosis ha sido limitado por la carencia de metodos
cuantitativos efectivos para caracterizar la forma del craneo y estudiar su posible asociacion con
otras variables biologicas y fisiologicas de interes en la medicina craniofacial.
Capıtulo 3. Craneosinostosis primaria 22
3.2. Problematica
Metodos novedosos para clasificar formas craneales constituyen un paso importante en el desa-
rrollo de tecnicas para caracterizar la estructura craneal en pacientes afectados por craneosi-
nostosis primaria [19]. En anos recientes se han publicado metodologıas para clasificar craneos
afectados por craneosinostosis primaria. Por ejemplo, Richtsmeir y sus colaboradores propu-
sieron utilizar analisis de matrices de distancia Euclideana (EDMA por sus siglas en ingles),
tecnicas de vecino mas cercano y de maxima verosimilitud con la finalidad de clasificar craneos
afectados por craneosinostosis primaria. Estos clasificadores arrojaron tasas de error en el ran-
go del 18 − 32 % [19]. Lin y colaboradores propusieron varios metodos para clasificar craneos
sinostoticos utilizando descriptores de Fourier, distribuciones de cuerdas y descriptores simboli-
cos de forma. Los descriptores simbolicos se calculan a partir de un modelo probabilıstico. Los
parametros del modelo se estiman con metodos de maxima verosimilutud que generan solucio-
nes locales del problema de optimizacion [20]. Esta ultima propuesta, permite clasificar craneos
sinostoticos con tasas de error del 6 % al 10 % [21].
La caracterıstica mas importante de una metodologıa de clasificacion, es el desarrollo de des-
criptores de forma que permitan construir clasificadores eficientes y capaces de generalizar en
un conjunto de datos nunca antes visto. Si bien, los descriptores de forma craneal que se han
propuesto recientemente en la literatura permiten construir clasificadores que alcanzan tasas de
error razonables, no estan exentos de limitaciones que dificultan su uso en la practica [22, 23].
3.3. Objetivo
En este capıtulo se desarrolla una metodologıa nueva para construir descriptores simbolicos
de forma y funciones de clasificacion, que permite discriminar las distintas malformaciones
craneales ocasionadas por craneosinostosis primaria. Los objetivos particulares de este capıtulo
son:
1. Dada una base de datos compuesta por imagenes craneales obtenidas con tomografıa compu-
tarizada de infantes con craneosinostosis primaria (sagital, metopica y coronal) y de pa-
cientes de control, desarrollar nuevos descriptores simbolicos de forma basados en un
modelo jerarquico Bayesiano, para construir clasificadores capaces de discriminar malfor-
maciones craneales con bajas tasas de error de clasificacion (ver la Figura 3.6).
2. Comparar las tasas de error del desempeno de los clasificadores, con las tasas de error ge-
neradas con nuevas tecnologıas de clasificacion que se han reportado recientemente en la
literatura.
Capıtulo 3. Craneosinostosis primaria 23
sutura sagital sutura metópica cráneo normal nuevo
1 1 2 2 3 3 ?
Figura 3.6: Los clasificadores deben ser capaces de generalizar correctamente y ası poderpredecir la etiqueta de una forma nueva .
3.4. Contribuciones
En esta seccion tambien se desarrolla una nueva metodologıa para construir descriptores simboli-
cos de forma. A continuacion, se describe brevemente las dos contribuciones de mi trabajo al
problema de clasificar craneos afectados por craneosinostosis primaria;
Una nueva metodologıa para construir un diccionario de rasgos reducido que se deriva del
diccionario de rasgos (seccion 3.5.6).
Uso de nuevas funciones nucleo que son una variante del kernel gaussiano introducidas en
la seccion 3.5.4.
3.5. Metodologıa
En esta seccion se describe nuestra metodologıa para clasificar craneos sinostoticos con base
en imagenes de TC. Tambien describimos detalladamente la fuente y metodos de preprocesa-
miento de los datos de las imagenes craneales, ası como los metodos basados en descriptores
numericos que se han propuesto en la literatura para caracterizar malformaciones producidas
por craneosinostosis primaria.
3.5.1. Imagenes de tomografıa computarizada
En este capıtulo todos los descriptores de forma se calculan a partir de imagenes de TC. Con
el objeto de estandarizar todas las mediciones, se utilizan vistas laterales calibradas de recons-
trucciones tridimensionales del craneo. La forma de los craneos esta codificada en terminos de
imagenes 3-D de TC. Los descriptores de forma se calculan a partir de imagenes que se ubican
en tres planos trazados en forma paralela a la base del craneo. El plano correspondiente a la
base del craneo esta definida en la parte anterior en terminos de la sutura nasal frontal y el
opsithion, en la parte posterior (Figura 3.7). El plano A se localiza en la parte superior del
Capıtulo 3. Craneosinostosis primaria 24
ventrıculo lateral, el plano F, en la Foramina de Munro y el plano M al nivel de la dimension
mayor del cuarto ventrıculo (Figura 3.7).
F MA
Figura 3.7: Los descriptores de forma presentados en este trabajo se calculan a partir de tresimagenes de tomografıa computarizada que se seleccionan en terminos de referencias anatomicasbien definidas. El plano A se localiza en la parte superior del ventrıculo lateral, el plano F, enla Foramina de Munro y el plano M, al nivel de la dimension mayor del cuarto ventrıculo. NScorresponde a la sutura nasal frontal y O el opsithion. Los ventrıculos segmentados se muestran
en color azul.
3.5.2. Representacion de craneos utilizando contornos
Cada craneo en la base de datos se representa por medio de contornos. En la Figura 3.8, se
ilustra la representacion de la forma de un craneo con tres contornos orientados extraıdos de las
imagenes de los planos en los niveles A, F y M.
A
F
M
Figura 3.8: Representacion de la forma de un craneo determinada por los contornos orientados(en sentido contrario a las manecillas del reloj) de los niveles A, F y M.
Para extraer un contorno, se utilizaron tecnicas de segmentacion e interpolacion con funciones
spline. Cada contorno se representa en un plano 2D por un conjunto de vertices con coordenadas
{x(n), y(n)}, con n = {0, 1, . . . , N − 1}. En este trabajo, cada contorno se representa por un
conjunto de N = 200 vertices. Los contornos se orientan en direccion contraria a las manecillas
del reloj (Figura 3.9).
3.5.3. Descriptores numericos
Los descriptores numericos de forma han sido utilizados para clasificar formas biologicas [7]. En
este trabajo los utilizamos con la finalidad de comparar su desempeno con el desempeno de los
Capıtulo 3. Craneosinostosis primaria 25
b c
h
a
Figura 3.9: a) Imagen de tomografıa computarizada del craneo a nivel del plano A de un pa-ciente afectado por craneosinostosis metopica. b) Contorno del craneo orientado en la direccioncontraria a las manecillas del reloj. c) Veintiun componentes del descriptor de Fourier, h es la
longitud de la craneo en el plano A.
descriptores simbolicos de forma que se presentan en las siguientes secciones.
Definicion 3.1. Un contorno es una representacion discreta en terminos de las coordenadas
(x, y) de los puntos a lo largo de una forma. Un contorno con N puntos se representa por una
serie de coordenadas {x(n), y(n)} donde n = {0, 1, . . . , N − 1}.
A partir de un contorno se pueden calcular las distancias de cada vertice del contorno a un
punto de referencia, como se muestra en la Figura 3.10. Con estas distancias se puede construir
un vector al que se le conoce como vector de rasgos de distancias. El vector de distancias se
calcula mediante la ecuacion 3.1, donde (x, y) son las coordenadas del punto de referencia.
d(n) =√
[x(n)− x]2 + [y(n)− y]2. (3.1)
Un punto de referencia conveniente, es el centro de masa del contorno, cuyas coordendas estan
dadas por las ecuaciones x = 1N
N−1∑n=0
x(n) y y = 1N
N−1∑n=0
y(n). La signatura del contorno es
invariante a la traslacion y provee informacion general de la naturaleza de la forma, como la
suavidad y la robustes.
y
x
(x,y)
d(0) d(1)
d(2)d(N−1)
Figura 3.10: Calculo de las distancias de los vertices del contorno con respecto a su centroide(x, y). El centroide pude estar fuera de la region si esta es concava o tiene huecos.
Capıtulo 3. Craneosinostosis primaria 26
La principal desventaja de esta representacion, es que para distintas formas se puede generar
el mismo vector de rasgos. Para que una representacion de forma sea util debe ser invariante
a cambios de posicion, rotacion y escala. Ademas, deben de especificarse las coordenadas del
vertice inicial y la direccion en la que se recorre el contorno.
3.5.3.1. Contexto de forma
El contexto de forma(CF) propuesto por You y Jain [24], es un metodo usado ampliamente
para discriminar y clasificar contornos cerrados en 2D. Este descriptor se basa en una medida
de longitud de cuerda. El contexto de forma se define como una distribucion de probabilidad de
las distancias entre los vertices. Un contorno con N vertices tiene K = N(N−1)2 segmentos; ver la
Figura 3.11. En algunas aplicaciones las distancias entre vertices se normalizan con respecto a la
longitud del segmento mas grande del contorno. Notese que el CF es invariante a trasformaciones
de escala, rotacion y traslacion. Empıricamente se ha demostrado que la CF es robusta al ruido
o distorciones indeseables del contorno. Una de las principales desventajas de este descriptor es
que distintos contornos pueden tener la misma distribucion CF.
2
1
3
4
5
67
10
9
8
Figura 3.11: Conjunto de todos los posibles segmentos para un contorno compuesto de N = 5vertices. Hay K = N(N−1)
2 = 10 segmentos.
3.5.3.2. Imagen craneal
La imagen craneal (IC) es una representacion matricial para caracterizar contornos. La IC se
obtiene al calcular las distancias entre los N vertices de un contorno. La matriz de distancias
es simetrica y de dimension N ×N . La componente (i, j) de la matriz almacena la distancia del
vertice i al vertice j. En el cuadro de la izquierda de la Figura 3.12 se ilustra un ejemplo del
calculo de la IC para un contorno con N = 5 vertices.
La IC de la forma de un craneo se puede calcular con mas de un contorno. En este trabajo la
IC se construye con los vertices de los contornos orientados de los L = 3 niveles (A, F y M).
El calculo utilizando tres contornos es similar al calculo que se realiza cuando se tiene solo un
contorno. La matriz resultante es de dimension O(N2L2). Los contornos se recorren en sentido
Capıtulo 3. Craneosinostosis primaria 27
1
2
3 4
5
3
6
10
1211
9
2
5
4
4
Imagen craneal
0 3 10 2
6
9 4 0 4 12
10 11 4 0 5
2 6 12 5 0
9
403 112
3
5
1 2 3 4 5
4
1
1
3
2
5
4
6
7
8
9
A
F
M
Figura 3.12: A la izquierda se ilustra un ejemplo del calculo de la IC de un contorno con 5vertices. El vertice inicial es el 1 y el contorno se recorre en sentido contrario a las manecillasdel reloj. La matriz resultante, es simetrica y de dimension 5× 5. En la imagen de la derecha,se presenta la forma de un craneo con los contornos de los niveles A, F y M. En este ejemplo deun juguete el contorno se representa por 3 vertices y en el esquema, se trazan los segmentos delvertice 1 a los restantes 8. La longitud de los segmentos trazados constituyen el primer renglon
de la IC de la forma del craneo.
contrario a las manecillas del reloj partiendo del vertice inicial el cual se define por la ubicacion
de la sutura metopica del craneo [7, 21]. En el segundo cuadro de la Figura 3.12, se muestran
los contornos de los niveles A, F y M. Cada contorno esta representado por 3 vertices. En la
figura se trazan los segmentos del vertice 1 a los restantes 8 vertices (del 2 al 9). La longitud
de los segmentos trazados en la figura constituyen el primer renglon de la IC de la forma del
craneo. En este trabajo cada contorno se representa por N = 200 vertices, por lo que la IC es
de dimension 600× 600.
1
0.5
0
a b c
Figura 3.13: a) Contorno orientada de un craneo afectado por cranesosinostosis sagital. b)Imagen craneal del contorno orientado representado como una funcion. c) Imagen craneal re-presentada como una imagen (matriz de distancias normalizadas entre vertices). α corresponde
a la longitud de la cabeza (constante de normalizacion) en el plano A.
En la Figura 3.13 se muestra la IC de un contorno afectado por craneosinostosis sagital y en la
Figura 3.14 se muestran las imagenes craneales generadas con cuatro craneos diferentes; uno de
un paciente de contol y tres con craneosinostosis primaria (coronal, sagital y metopica).
Capıtulo 3. Craneosinostosis primaria 28
Figura 3.14: Imagen craneal de diferentes craneos, uno normal y tres sinostoticos.
3.5.3.3. Descriptores de Fourier
Si se recorre el contorno en sentido contrario a las manecillas del reloj como se ilustra en la
Figura 3.15, se puede construir una secuencia compleja de la forma z(n) = x(n) + jy(n). Esta
secuencia, es una funcion periodica con perıodo N . La secuencia |z(n)| puede usarse como una
signatura del contorno [7].
Las senales perıodicas se pueden analizar utilizando series de Fourier. Dada una secuencia en el
espacio discreto z(n), se puede derivar su serie de Fourier con un perıodo de su transformada
discreta de Fourier (TDF) Z(k). Entonces, la secuencia z(n) se obtiene con la funcion inversa
de la TDF. A los coeficientes Z(k) se les conoce como decriptores de Fourier del contorno z(n).
Z(k) es un vector de dimension N .
0 −> z(0) = x(0)+jy(0)
1 −> z(1) = x(1)+jy(1)
2 −> z(2) = x(2)+jy(2)
Z(0) = (x,y)
x
y0
2N−1
1
N−1 −> z(N−1) = x(N−1)+jy(N−1)
Figura 3.15: Contorno representado por la secuencia compleja z(n).
Para obtener un unico factor de forma, el descriptor de Fourier se normaliza como sigue:
1. Hacer Z(0) = 0. Para que el descriptor sea invariante a la posicion inicial.
2. Cada coeficiente se divide por la magnitud de |Z(1)|. Para normalizar el tamano del
contorno.
Capıtulo 3. Craneosinostosis primaria 29
De esta manera, los descriptores se hacen invariantes a la posicion, la escala y del punto inicial
con el que se comience a recorrer el contorno. La normalizacion del descriptor Z0(k) se define
como,
Z0(k) =
{0, k=0;Z(k)|Z(1)| , Otro caso.
(3.2)
Para usar esta normalizacion, los puntos del contorno deben ser indexados de 0 a N − 1 en
sentido contrario a las manecillas del reloj. En caso contrario, usar |Z(−1)|. Finalmente solo
hacemos notar que Z(0) es el centro de masa del contorno.
Z(0) =1N
N−1∑n=0
z(n) = (x, y). (3.3)
En el presente trabajo, cada contorno se representa con N = 200 vertices. Se calculan los descrip-
tores de Fourier para los contornos de los L = 3 planos A, F, y M (Figura 3.7). Posteriormente,
los 3 descriptores se concatenan para obtener un descriptor unico de tamano O(LN), es decir,
cada caso se representa por un total de 600 elementos.
3.5.3.4. Reduccion de la dimensionalidad de los descriptores numericos
Con el objeto de construir clasificadores de malformaciones craneales, es indispensable reducir la
dimensionalidad de los descriptores descritos en las secciones previas. En general, la dimensiona-
lidad de los descriptores de forma debe den ser mucho menores al numero de datos disponibles.
Lo anterior, con el fin de que los clasificadores tengan mayor probabilidad de generalizar co-
rrectamente los datos[25]. En este estudio se usa analisis de componentes principales (PCA, por
sus siglas en ingles) y proyecciones aleatoreas (PA), para construir descriptores numericos de
forma, de 10 dimensiones aproximadamente.
PCA es una tecnica estadıstica de sıntesis de la informacion, o reduccion de dimensionalidad
(numero de variables). Es decir, ante un banco de datos con muchas variables (p), el objeti-
vo sera reducirlas a un menor numero (m) con la menor perdida de informacion. Los nuevos
componentes principales o factores, seran una combinacion lineal de las variables originales,
y ademas seran independientes entre sı. Para estudiar las relaciones presentes en p variables
correlacionadas (informacion comun), se puede transformar el conjunto original de variables a
otro conjunto de nuevas variables no correlacionadas (eliminar la repeticion y redundancia de la
informacion). Al conjunto de nuevas variables se les llama componentes principales. Las nuevas
variables son combinaciones lineales de las anteriores y se van construyendo segun el orden de
Capıtulo 3. Craneosinostosis primaria 30
importancia de la variabilidad total que recogen de la muestra. Idealmente, se busca que m� p,
conservando la mayor parte de la informacion de los datos.
En PA, datos de alta dimensionalidad son proyectados a un espacio de menor dimension utili-
zando una matriz aleatoria, donde, las columnas forman vectores ortonormales. Una proyeccion
aleatoria de n a d dimensiones se representa por una matriz de dimension d×n. Para generar la
matriz se usa el siguiente algoritmo: a) formese una matriz de entradas independientes e identi-
camente distribuidas con una distribucion normal de media cero y desviacion estandar uno.
b) Generese un conjunto ortonormal de d vectores con el algoritmo de Gram-Schmidt, usando
como entrada los renglones de la matriz calculada en a).
PCA y PA, son tecnicas estandares para reducir la dimensionalidad de datos numericos. Si
bien es cierto PCA ha sido usado de manera exitosa en una gran variedad de aplicaciones,
el metodo de PA ha emergido como un metodo alternativo y poderoso. Este metodo ofrece
multiples ventajas para conjuntos de datos que no pueden modelarse apropiadamente con una
distribucion normal multivariable [26].
3.5.4. Propuesta metodologica
Las limitaciones de los descriptores numericos para entrenar clasificadores de contornos cra-
neales, que simultaneamente generalicen y produzcan bajas tasas de error, han motivado el
desarrollo y el uso de descriptores simbolicos de forma (DSF) [21]. En esta seccion se presenta el
algoritmo para clasificar craneos afectados por craneosinostosis primaria. El algoritmo considera
una etapa de entrenamiento para calcular el clasificador y una etapa de prueba para clasificar
el craneo nunca antes visto.
En los algoritmos se hace referencia al nombre de la funcion que se implementa en el paso
especıfico. El nombre de la funcion se anota en italicas y entre parentesis, con el objeto de
simplificar la presentacion del pseudocodigo (Algoritmo 1).
Entrada: Los craneos de sujetos afectados por craneosinostosis primaria y sujetos de con-
trol. Cada craneo se representa por tres contornos de 200 vertices cada uno. Los contornos
de cada craneo se calculan de los planos A, F y M como se describio en la seccion 3.5.2.
El i-esimo craneo Ci contienen N = 600 vertices en total. El conjunto total de formas
craneales se divide en dos subconjuntos: el de entrenamiento CE = {C1, C2, . . . , CM} y el
de prueba CP = {CM+1}. El conjunto C = CE⋃CP , tiene cardinalidad |C| = M + 1.
Otros parametros del algoritmo son: c, λ, K, α, β, y ν. El significado de cada uno de ellos
se describe en los parrafos que siguen.
Salida: Conjunto de descriptores simbolicos de forma y una funcion de clasificacion.
Capıtulo 3. Craneosinostosis primaria 31
1. Calculo de la imagen craneal (ImagenCraneal): Se construye la imagen craneal de
cada uno de los elementos de C como se describe en la seccion 3.5.3.2. La imagen craneal
de cada elemento en C es de dimension 600× 600.
2. Asignacion de etiquetas simbolicas a los elementos de CE (kmeans): Las etiquetas
simbolicas se asignan con base en los atributos numericos (renglones de la imagen craneal)
asociados a los vertices del contorno. Las etiquetas simbolicas de cada vertice se calcu-
lan por medio del algoritmo k-means. El k-means es un algoritmo de aglomeracion. La
entrada a este algoritmo son los renglones de todas las matrices de ICE del conjunto de
entrenamiento. Cada renglon es un vector de 600 dimensiones. La salida del algoritmo es
un conjunto de c etiquetas, donde c < 600 es un parametro seleccionado por el usuario.
Los vertices de cada contorno se etiquetan de acuerdo al cumulo asignado al renglon de la
imagen craneal correspondiente. El resultado es un contorno simbolico de forma CS. La
construccion de un contorno simbolico se ejemplifica en la Figura 3.16.
3. Asignacion de etiquetas simbolicas a los elementos de CP (NearestNeighboor): Para
etiquetar los vertices del contorno de prueba CP se utilizan los centros c obtenidos con el
algoritmo k-means del conjunto de entrenamiento. Con el algoritmo nearest neighboor, se
asignan las etiquetas a los vertices del contorno de prueba. El algoritmo nearest neighboor
es un metodo de clasificacion supervisada. Los datos de entrada de este algoritmo son los
centros c y los renglones de la ICP del dato de prueba. El algoritmo regresa las etiquetas
asignadas de acuerdo al cumulo mas cercano a los elementos de la ICP . Los vertices del
contorno se etiquetan de acuerdo al cumulo asignado al renglon de la ICP . Ası se obtenie
el contorno simbolico correspondiente al craneo de prueba.
a
i
e
0
1
N−1
7
6
5
43
2
10 a
i
n
a
re
y
e
Figura 3.16: De izquierda a derecha: Se presenta un contorno representado con 8 verti-ces, despues se muestra la IC que se construye recorriendo el contorno en sentido contrarioa las manecillas del reloj. Le sigue la etiqueta asignada a los renglones de la IC al aplicark-means. Finalmente, se construye el contorno simbolico con las etiquetas asignadas a la
IC.
4. Construccion de la bolsa de rasgos (ConstruyeBRC ): Se construye la llamada bolsa
de rasgos para caracterizar a cada contorno en C. El proceso para construir la bolsa de
rasgos del contorno Ci ∈ C usando el contorno simbolico asociado CSi es el siguiente.
Capıtulo 3. Craneosinostosis primaria 32
Las etiquetas asociadas a los vertices de cada contorno simbolico se utilizan para construir
rasgos de longitud λ. En la Figura 3.17 se ilustra el proceso de construccion de una bolsa
de rasgos. El rasgo del vertice xj es el resultado de concatenar 3 etiquetas del contorno
simbolico correspondientes a los vertices xj−1, xj y xj+1. En este ejemplo λ = 3. En la
Figura 3.17 tambien se construyen rasgos de longitud 3 y 5 de un contorno representado
por 8 etiquetas simbolicas. El objetivo de agrupar las etiquetas en un rasgo de longitud λ
tiene como finalidad capturar la correlacion que existe entre la informacion de un vertice
y sus vecinos. Al conjunto de rasgos de cada contorno simbolico se le denomina bolsa de
rasgos (BR). Notese que no hay un orden con respecto a los elementos en la bolsa de
rasgos. Notese ademas que los rasgos en una BR pueden repetirse mas de una vez. El
numero de elementos en la BR es igual al numero de vertices del contorno simbolico.
yea }
eye,
rey,
are,
nar,
ina,
ain,
{ eai, { niaey,
iaeye,
aeyer,
eyera,
yeran,
erani,
rania,
aniae }
a
i
n
a
re
y
e
Bolsa de rasgos 1 Bolsa de rasgos 2
Figura 3.17: Construccion de dos bolsas de rasgos que se derivan del contorno simbolicorepresentado por ocho vertices. La primer bolsa se compone de rasgos de longitud 3 y la
segunda con rasgos de longitud 5.
5. Obtencion del diccionario de rasgos (DiccionarioRasgos): Se extraen los diferentes
rasgos a partir de las BR correspondientes a los diferentes craneos del conjunto de en-
trenamiento. Al conjunto de distintos rasgos se le denomina diccionario de rasgos (DR).
6. Calculo de la matriz de Concurrencia (MatrizConcurrencia): Aquı se construye una
matriz que codifica la concurrencia de los rasgos del DR en las BR [27]. Los elementos
de la matriz almacenan el numero de veces (frecuencia) que los rasgos aparecen en cada
BR. A esta matriz se le conoce como matriz de concurrencia (MC). Los renglones de
la MC corresponden en nuestro trabajo a las diferentes clases de craneos y las columnas
representan los rasgos que constituyen el DR . La matriz de concurrencia construida con
las diferentes clases de craneos se observa en la Figura 3.18. Notese que en la figura, las
diferentes clases de craneos comparten rasgos comunes (rectangulos en la Figura 3.18).
7. Reduccion de dimensionalidad utilizando un modelo Bayesiano (AplicaLDA):
Se utiliza un modelo Bayesiano jerarquico llamado latent Dirichlet allocation (LDA) [28]
para reducir la dimensionalidad de la representacion en terminos de bolsas de rasgos. El
LDA representa la bolsa de rasgos de los craneos como mezclas probabilısticas de topicos.
Capıtulo 3. Craneosinostosis primaria 33
Matriz de Concurrencia
Rasgos
Bol
sas
de r
asgo
s N
MC
S
200 400 600 800 1000
20
40
60
80
100
120
140
160
180
Figura 3.18: Matriz de concurrencia usando distintos contornos craneales: normales(N),metopicos(M), coronales(C) y sagitales(S).
Un topico se define como una distribucion multinomial sobre el DR. Es decir, el k-esimo
topico esta asociado a los parametros de una distribucion multinomial φk = {φkw}, w es
el ındice de los rasgos en el DR. Para generar un contorno simbolico CSi con el modelo,
primero se calculan las probabilidades de la mezcla θj = {θjk} para los K topicos. Para
el i-esimo rasgo de CSj , se elige un topico zij con probabilidad θjk. Una vez que el
topico se ha seleccionado, el rasgo xij se selecciona del topico zij , de tal manera que
xij = V(w) con probabilidad φkw, en donde V(w) es el w-esimo rasgo del DR. El problema
a resolver consiste en estimar z = {zij}, θ = {θk}, φ = {φk}, dados K y x = {xij}, en
donde i = 1, . . . , Nj ; w = 1, . . . ,W ; e j = 1, . . . , D; Nj es el numero de rasgos del j-
esimo contorno; y D es el numero total de CS de la muestra poblacional. Los descriptores
simbolicos de este modelo se definen como
θj = {θj1, · · · , θjK} (3.4)
en donde θjk es una estimacion de θjk. De esta manera los descriptores simbolicos para un
contorno simbolico se definen como una distribucion de probabilidad sobre los K topicos.
Para estimar z, θ y φ se utiliza un metodo Montecarlo de cadenas de Markov.
N D
!
z
"
#K
$j
x
Figura 3.19: Representacion del modelo generativo LDA.
Capıtulo 3. Craneosinostosis primaria 34
El modelo grafico del modelo LDA se muestra en la Figura 3.19 donde z = {zij}, x = {xij},θ = θj , φ = {φj} y Nj es el numero de rasgos asignados al j-esimo contorno simbolico
de forma. La aplicacion de este modelo a la caracterizacion de formas es motivada por
un argumento intuitivo. La bolsa de rasgos de un contorno es formado concatenando las
etiquetas simbolicas de vertices adyacentes en el contorno. Los rasgos en la bolsa de rasgos
generado tienden a tener ciertos patrones de correlacion que se preservan a traves de las
instancias de las distintas clases de forma. Se presume que una clase de forma puede ser una
mezcla de diferentes patrones de correlacion que aparecen con distintas frecuencias (pro-
babilidades de las mezclas φ). Las diferentes clases pueden tener patrones de correlacion
semejantes, pero el punto es que la frecuencia con la que ocurren (probabilidad asignada a
los topicos θ) difiere significativamente entre las clases. Tales diferencias podrıan reflejar
informacion global de la forma describiendo como las caracterısticas geometricas de forma
estan organizadas dentro de las distintas clases de forma. Dados α y β, la funcion de
distribucion conjunta de todos los parametros y variables del modelo es;
p(x, z,θ,φ|α, β;K) =D∏j=1
Γ(Kα)Γ(α)K
K∏k=1
θnjk.+α−1jk
×K∏k=1
Γ(Wβ)Γ(β)W
W∏w=1
φn.kw+β−1kw (3.5)
Donde Γ es la funcion gamma, njkw = #{i : xij = w, zij = k}, y el punto es el ındice
sumado afuera: n.kw =∑
j njkw, y njk. =∑
w njkw. Dados los rasgos observados de la
bolsa de rasgos x, la tarea de la inferencia Bayesiana es calcular la distribucion sobre
los ındices de los topicos geometricos latentes z, la probabilidad de las mezclas θ y los
parametros de los topicos geometricos φ.
Aplicando muestreo de Gibbs para realizar inferencia se construye una cadena de Markov
que converja a la distribucion aposteriori en z y entonces usamos los resultados para in-
ferir θ y φ. Para aplicar este algoritmo se necesita la distribucion condicional completa
p(zij = k|z¬ij ,x;K), donde el subındice ¬ij se refiere a las variables xij y zij . Esta distri-
bucion condicional se calcula en dos pasos. Primero, la distribucion marginal p(z,x;K) es
obtenida marginalizando sobre θ y φ en 3.5 aplicando analisis conjugado. La distribucion
marginal sobre x y z es,
Capıtulo 3. Craneosinostosis primaria 35
p(x, z|α, β;K) =K∏k=1
Γ(Wβ)Γ(n.k. +Wβ)
W∏w=1
Γ(n.kw + β)Γ(β)
×D∏j=1
Γ(Kα)Γ(nj.. +Kα)
K∏k=1
Γ(njk. + α)Γ(α)
(3.6)
= p(x|z;K)× p(z;K).
Cancelando terminos en 3.6 se obtiene el siguiente resultado
p(zij = k|z¬ij ,x, α, β;K) =n¬ij.kw + β
n¬ij.k. +Wβ·n¬ijjk. + α
n¬ijj.. +Kα. (3.7)
Teniendo la distribucion condicional completa el muestreado de Gibbs es simple. Las
variables zij son inicializadas con valores en 1, . . . ,K, determinando el estado inicial de la
cadena de Markov. La cadena entonces se corre para un numero de iteraciones, en cada
paso se encuentra un nuevo estado muestreando cada zij de la distribucion en 3.7. Despues
de un numero suficiente de iteraciones la cadena se aproxima a la distribucion, zij toma
el valor del ultimo estado de la cadena. Muestreos subsecuentes se consideran apropiados
para asegurar que la correlacion de las variables es baja. Los valores de θ y φ dado z y x
pueden ser estimados del muestreo de las cadenas por,
θjk =njk. + α
nj.. +Kα. (3.8)
φkw =n.kw + β
n.k. +Wβ. (3.9)
Note de 3.7 que p(zij = k|z¬ij ,x) ∝ (n¬ij.kw+β)(n¬ij.k. +Wβ)−1(n¬ijjk. +α); consecuentemente,
zij depende de z¬ij solo por las cuentas n¬ij.kw, n¬ij.k. , y n¬ijjk. .
La depedencia de zij en alguna variable particular zi′j′ es poco convincente para grandes
conjuntos de datos. Por esta razon se espera que la convergencia del muestreo de Gibbs
sea rapida.
Se aplica el modelo LDA a los elementos de la matriz de concurrencia. Como resultado, se
obtienen los descriptores simbolicos de forma basados en este modelo generativo, definidos
por los parametros estimados θj de el modelo LDA, es decir, se obtiene el vector Θj =
(Θj1, . . . ,ΘjK) , donde Θjk = θjk. En la siguiente seccion se describe la manera en como
se construyen los clasificadores usando Θ.
Capıtulo 3. Craneosinostosis primaria 36
8. Construccion de los clasificadores con maquinas de soporte vectorial (Entrena-
Clasificador): Los clasificadores de formas craneales se construyen por medio de maquinas
de soporte vectorial tipo ν (ν-SVMs por sus siglas en ingles), donde, ν es una cota para
el numero de errores permitidos en la SVM [25]. Los clasificadores se entrenaron con los
descriptores simbolicos θj generados con el modelo LDA obtenidos con el conjunto de en-
trenamiento CE . Las maquinas de soporte vectorial se construyen con kernels lineales y
no lineales (Cuadro 3.1) derivados de metricas Hilbertianas [29]. Se usaron variantes de
kernels gaussianos, modificando el argumento de la exponencial por los kernels correspon-
dientes a KTV , KH1, KH2 y Kχ2 . A la variante de kernels gaussianos los identificamos
como KGTV , KGH1, KGH2 y KGχ2 .
Lıneal KL(θm, θn) =K∑j=1
θmjθnj
Gaussiano KG(θm, θn) = e−γ‖θm−θn‖2
Hellinger KH1(θm, θn) =K∑j=1|√θmj −
√θnj |
Helllinger modificado KH2(θm, θn) =K∑j=1|√θmj −
√θnj |2
Variacion Total KV T =K∑j=1|θmj − θnj |
Chi cuadrada Kχ2 =K∑j=1
(θmj−θnj)2(θmj+θnj)
Cuadro 3.1: Funciones de nucleo utilizadas para construir las funciones de clasificacioncon las maquinas de soporte vectorial.
El Algoritmo 1 presenta el pseudocodigo de la metodologıa descrita para construir clasificado-
res de formas craneales derivados de descriptores simbolicos de forma.
Algorithm 1 Clasificacion de formas craneales1: Entrada: CE , CP , c, λ, K, α, β2: Salida: Etiqueta del craneo de prueba (nueva etiqueta)3: ICE = ImagenCraneal(CE)4: ICP = ImagenCraneal(CP )5: CentrosICE = kmeans(ICE , c)6: CentrosICP = NearestNeighboor(CentrosICE , ICP )7: BRE = ConstruyeBRC(CE , CentrosICE , λ)8: BRP = ConstruyeBRC(CP , CentrosICP , λ)9: DR = DiccionarioRasgos(BRE)
10: MCE = MatrizConcurrencia(BRE , DR)11: MCP = MatrizConcurrencia(BRP , DR)12: ΘE = AplicaLDA(MCE , α, β, K)13: ΘP = AplicaLDA(MCP , α, β, K, ΘE)14: f = EntrenaClasificador(ΘE)15: NuevaEtiqueta = f(ΘP )
Capıtulo 3. Craneosinostosis primaria 37
3.5.5. Seleccion del modelo
Todos los parametros libres del algoritmo descrito con anterioridad (c, λ, K, α, β y ν) se calculan
por medio de metodos de validacion cruzada (leave-one-out [25]) que permite minimizar el error
de clasificacion [25]. El Algoritmo 1, sintetiza el proceso para obtener los DSF.
3.5.6. Metodo de seleccion de variables
Experimentos preliminares de clasificacion mostraron que es posible reducir el numero de ele-
mentos en el diccionario de rasgos sin comprometer el desempeno de los clasificadores [30].
Por esta razon sugerimos que es posible llevar a cabo un proceso de seleccion de variables para
eliminar informacion comun a las diferentes clases de craneos (metopicos, coronales, sagitales y
de control).
La entrada a este procedimiento es la matriz de concurrencia calculada en el paso 11 del Algo-
ritmo 1. La salida del proceso es la matriz reducida de concurrencia (MCR) que se construye
utilizando un diccionario de rasgos reducido (V ). Este diccionario solo contiene rasgos que dife-
rencian a las distintas clases de craneos. Los rasgos que caracterizan las diferencias se seleccionan
utilizando una prueba de hipotesis. Todos aquellos rasgos que son significativos constituyen el
V .
El diccionario de rasgos reducido, se define como
V = VNM⋃VNC
⋃VNS
⋃VMC
⋃VMS
⋃VCS , (3.10)
en donde N , M , C y S representan las clases de craneos normales, metopicos, coronales y
sagitales, respectivamente. Vab representa el diccionario de rasgos reducido calculado para las
clases a y b, con a, b ∈ {N,M,C, S}. La prueba de hipotesis se efectua por medio de un metodo
de muestreo conocido como bootstrap [31]. El bootstrap se aplica sobre el conjunto de diferencias
que existen entre las matrices de concurrencia de las distintas clases. El algoritmo de seleccion
de variables se divide en dos fases. En la primera se generan estadısticos que caracterizan la
hipotesis nula, es decir, la hipotesis que sugiere que no hay diferencias signficativas entre los
rasgos de las distintas clases. Esta fase utiliza el algoritmo bootstrap para estimar empıricamente
las distribuciones de la hipotesis nula. En la segunda fase se ejecuta una prueba de hipotesis con
un nivel de confianza α∗ para determinar que rasgos del diccionario de palabras DR reflejan
diferencias significativas entre las distintas clases. La primer fase del algoritmo se describe a
continuacion.
Capıtulo 3. Craneosinostosis primaria 38
Entrada: Las bolsas de rasgos de las clases a y b que contienen los elementos BRa =
{BRa1, . . . , BRan} y BRb = {BRb1, . . . , BRbm} respectivamente. Con a, b ∈ {N,M,C, S}.Ademas, el numero de ciclos del algoritmo bootstrap (nCiclosBootstrap ).
Salida: La matriz Dab de dimension nCiclosBootstrap×(n+m) y los conjuntos de rasgos
Ra y Rb de las clases a y b respectivamente. Las variables Ra y Rb se describen en el paso
1.
1. Concatenacion de las bolsas de rasgos de las clases a y b (ConcatenaRab): Los
elementos de Ra =n⊕i=1
BRai son resultado de concatenar los elementos de las bolsas
de rasgos de la clase a. De la misma forma Rb =m⊕i=1
BRbi representa todos los rasgos
de clase b. El operador de concatenacion⊕
se ilustra con un ejemplo sencillo. Sean
BRa1 = {eai, ain, ina} y BRa2 = {nar, are, rey} (ver Figura 3.17), entonces BRa1⊕BRa2 =
{eai, ain, ina, nar, are, rey}. Los elementos de Ra y Rb construyen el conjunto Rab =
Ra⊕Rb que contiene todos los rasgos de las dos clases. Rab es de dimension (n+m). Los
elementos de Rab son los rasgos {r1, . . . , rn, rn+1, . . . , rn+m}.
2. Muestreo Bootstrap (Bootstrap): Los pasos a, b y c se realizan nCiclosBootstrap veces
para construir la matriz Dab. En el algoritmo, i representa el ındice del ciclo bootstrap:
a) Construir un arreglo Rab = {r1, . . . , rn, rn+1, . . . , rn+m} de dimension |Rab| mues-
treando con reemplazo los elementos de Rab.
b) Realizar histogramas de frecuencias de rasgos con los elementos de Rab. Es decir, se
calculan los histogramas normalizados Ha = hist(r1, . . . , rn) y Hb = hist(rn+1, . . . , rn+m),
con respecto al diccionario de rasgos.
c) Calcular la diferencia de los histogramas de frecuencias obtenidos en el paso previo:
Dab(i) = abs(Ha − Hb). Dab(i) es el i-esimo renglon de la matriz Dab.
La metodologıa para realizar el muestreo bootstrap de dos clases de craneos se resume en el
Algoritmo 2. Despues de realizar la primer fase se obtiene como resultado la matriz Dab y las
bolsas de rasgos Ra y Rb. Ahora, se aplica la prueba de hipotesis para construir el Vab de las
clases a y b.
Algorithm 2 Muestreo Bootstrap para dos clases de formas craneales (MuestreoBootstrap)1: Entrada: BRa, BRb, nCiclosBootstrap2: Salida: Dab, Ra, Rb3: Rab=ConcatenaRab(Ra, Rb)4: Dab=Bootstrap(Rab)
A continuacion, se describe el algoritmo para determinar los elementos de Vab. El Algoritmo
3 sintetiza el proceso.
Capıtulo 3. Craneosinostosis primaria 39
Entrada: Nivel de significancia α∗, diccionario de rasgos DR (de las clases N , M , C y
S), matriz Dab, bolsas de rasgos Ra y Rb.
Salida: Diccionario de rasgos reducido Vab.
1. Inicializar con ceros el vector indicador binario V Sab (InicializarVectorIndicador).
Este vector es de dimension |DR|. Note que si V Sab(j) = 1, entonces el j-esimo rasgo del
DR es significativo. De otra manera el rasgo no es significativo.
2. Calculo de diferencias de histogramas(DiferenciasHistogramas): Diferencia de los
histogramas de los rasgos de la clase a y la clase b. V Dab = abs(Ha − Hb), con Ha =
hist(Ra) y Hb = hist(Rb). A cada elemento del vector V D lo denotaremos como vdj ,
donde j es el ındice de la diferencia calculada para el j-esimo rasgo del DR.
3. Calculo de rasgos significativos (DeterminaSignificancia): Para cada columna de Dab
a la que identificaremos como dj calcular:
a) La distribucion acumulativa (cdf) de las diferencias (hipotesis nula) para el j-esimo
rasgo del diccionario: cdf(dj).
b) Calcular la significancia pj del valor de distancia de vdj , con respecto a la hipotesis
nula.
c) Si pj > (1− α∗) entonces V Sab(j) = 1.
4. Construir diccionario reducido (ConstruyeVab): Se forma el diccionario Vab con aque-
llos rasgos del diccionario DR para los que V Sab(j) = 1.
Algorithm 3 Determina que rasgos son significativos (SeleccionDeVariables).1: Entrada: α∗, DR, Dab, Ra, Rb2: Salida: Regresa Vab modificado3: V Sab = InicializarVectorIndicador4: V Dab = DiferenciaHistogramas(Ra, Rb)5: V Sab = DeterminaSignificancia(α∗, Dab, V Sab, V Dab)6: Vab = ConstruyeVab(DR, V Sab)
Es posible modificar el Algoritmo 1 para incorporar el diccionario y la matriz de concurrencia
reducidos. Esta modificacion se presenta en el Algoritmo 4.
3.5.7. Metodo para estimar el numero de topicos K
Una metodologıa para estimar el valor de K que mejor describe la distribucion de los rasgos del
DR en las bolsas de rasgos se presenta a continuacion.
Capıtulo 3. Craneosinostosis primaria 40
Algorithm 4 Clasificacion de formas craneales con diccionario de rasgos reducido.1: Entrada: CE , CP , c, λ, K, α, β, α∗
2: Salida: Etiqueta del craneo de prueba (nueva etiqueta).3: ICE = ImagenCraneal(CE)4: ICP = ImagenCraneal(CP )5: CentrosICE = kmeans(ICE , c)6: CentrosICP = NearestNeighboor(CentrosICE , ICP )7: BRE = ConstruyeBRC(CE , CentrosICE , λ)8: BRP = ConstruyeBRC(CP , CentrosICP , λ)9: DR = DiccionarioRasgos(BRE)
10: V = SeleccionDeVariables(BRE , α∗)11: MCE = MatrizConcurrencia(BRE , V )12: MCP = MatrizConcurrencia(BRP , V )13: ΘE = AplicaLDA(MCE , α, β,K)14: ΘP = AplicaLDA(MCP , α, β, K, ΘE)15: f = EntrenaClasificador(ΘE)16: NuevaEtiqueta = f(ΘP )
Los parametros θjk estimados en el paso 13 del Algoritmo 1 dependen de α, β y K. Siguiendo la
estrategia descrita en [33], fijamos los valores de α y β, y exploramos las consecuencias de variar
K. Dados α y β, el problema de encontrar la K mas apropiada es un problema de seleccion del
modelo que resolvemos estimando la verosimilitud de p(x;K), por medio de la media armonica
de un conjunto de valores p(x|z;K) [16], cuando z se muestrea a partir de la posterior p(z|x;K):
p(x|K) =
[1m
m∑i=1
p(x|z(i);K)−1
]−1
.
0 20 40 60−8
−7.5
−7
−6.5x 10
5
K
log
p(x;
K)
Figura 3.20: Logaritmo de la verosimilitud como una funcion del numero K de topicos conα = 50 y β = 1, calculada para una matriz de concurrencia similar a la de la Figura 3.18. Lamatriz incluye las cinco clases de craneos de la muestra poblacional. El error estandar de los
puntos calculados es menor que el tamano de los sımbolos sombreados.
La Figura 3.20 muestra el logaritmo de la verosimilitud como una funcion del numero K de
topicos con α = 50 and β = 1. La funcion fue calculada para modelar una matriz de concurrencia
similar a la de la Figura 3.18, que incluye cuatro clases de craneos de la muestra poblacional:
sagital, metopica, coronal y normal. El maximo de la funcion se encuentra en K = 9 topicos.
Capıtulo 3. Craneosinostosis primaria 41
3.5.8. Muestra poblacional
La muestra poblacional para el analisis de formas craneales se compone de 120 estudios tridi-
mensionales completos de tomografıa computarizada. Los estudios son de infantes que padecen
craneosinostosis primaria. Las mediciones fueron registradas antes de la cirugıa reconstructiva
para corregir la forma del craneo. Ademas, se cuenta con 50 estudios de pacientes que no pre-
sentan ninguna anormalidad (craneos de control). Los estudios de TC, provienen de una base
de datos del Children’s National Medical Center, Washington D. C.
3.6. Resultados
Esta seccion esta dividida en tres partes. En la primera, se presentan los resultados de cla-
sificacion correspondientes al Algoritmo 1, es decir, el algoritmo que no utiliza seleccion de
variables. En la segunda parte se presentan los resultados correspondientes al Algoritmo 4
que incluye la seleccion de rasgos que hacen patente las diferencias entre las diferentes clases
de formas craneales. En la tercer parte se cuantifica la diferencia entre la informacion de forma
craneal contenida en las matrices de concurrencia y las matrices de concurrencia reducida
3.6.1. Clasificacion de formas craneales (Algoritmo 1)
Los resultados de clasificacion para el Algoritmo 1 se resumen en el Cuadro 3.2. Los mejores
resultados de clasificacion se obtienen con el kernel KGχ2 . La tasa de reduccion de dimension
alcanzada en este caso fue de 100 : 1 (Cuadro 3.3). Los kernels KL, KG y KGH2 arrojan tasas
de clasificacion similares a las obtenidas con el KGχ2 . Sin embargo, la tasa de reduccion de
dimensionalidad es significativamente menor (67 : 1). Los resultados mas pobres se obtuvieron
con el kernel KGH1.
Todos los resultados de clasificacion se calcularon por medio de un metodo de validacion cruzada
(leave-one-out) que minimiza el error de clasificacion. Todos los parametros de los modelos que
produjeron las mejores tasas de clasificacion se obtuvieron por medio de una busqueda en el
espacio de parametros. Los rangos de los parametros en el espacio de busqueda se muestran
en el Cuadro 3.11. Los parametros con los que se obtuvieron los resultados del Cuadro 3.2 se
presentan en el Cuadro 3.4
Las matrices de confusion correspondientes a los experimentos de clasificacion utilizando PCA
y PA se muestran en el Cuadro 3.5. Las tasas de clasificacion son significativamente inferiores a
aquellas obtenidas con los descriptores simbolicos. La tasa de reduccion de dimensionalidad es
de 10 : 1. Las tasas de clasificacion se deterioran aun mas para tasas de reduccion de dimensio-
nalidad mayores (datos no mostrados).
Capıtulo 3. Craneosinostosis primaria 42
KL Kχ2
S M C S M C
S 96.7 2.22 1.1 95.6 4.4 0M 0 94.74 5.26 2.63 84.21 13.16C 5.66 1.89 92.45 0 9.43 90.57
KG KGH1
S M C S M C
S 96.7 2.2 1.1 96.70 2.20 1.1M 0 94.74 5.26 2.63 89.47 7.89C 3.77 3.77 92.45 1.89 3.77 94.34
KH1 KGH2
S M C S M C
S 92.31 2.2 5.49 96.7 2.2 1.1M 0 89.47 10.53 0 94.74 5.26C 3.77 3.77 92.45 3.77 3.77 92.45
KH2 KGTVS M C S M C
S 91.21 8.79 0 95.6 2.2 2.2M 0 92.11 7.89 0 94.74 5.26C 1.89 5.66 92.45 5.66 1.89 92.45
KTV KGχ2
S M C S M C
S 93.41 2.2 4.4 96.7 2.2 1.1M 0 89.47 10.53 0 94.74 5.26C 5.66 1.89 92.45 3.77 3.77 92.45
Cuadro 3.2: Matrices de confusion ( %) con los kernels definidos en el Cuadro 3.1: sagital(S),metopico(M), control(C). Matrices de confusion que se obtuvieron con la matriz de concurrencia.Las tasas de reduccion de dimensionalidad se presentan en el Cuadro 3.3 y los parametros en
el Cuadro 3.4. Las celdas sombreadas, representan los mejores resultados del cuadro.
KL KG KH1 KH2 KTV Kχ2 KGH1 KGH2 KGTV KGχ2
TRD 67 : 1 67 : 1 120 : 1 85.7 : 1 100 : 1 75 : 1 67 : 1 67 : 1 67 : 1 100 : 1
Cuadro 3.3: Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.2.
3.6.2. Clasificacion de formas craneales con diccionario de rasgos reducido
(Algoritmo 4)
Los resultados de clasificacion para el Algoritmo 4 se resumen en el Cuadro 3.6. Los mejores
resultados de clasificacion se obtienen con el kernel KGH2. La tasa de reduccion de dimension
alcanzada en este caso fue de 120 : 1 (Cuadro 3.7). Note que los kernels KL, KGH1 y KGTV
generan mejores tasas de clasificacion que los resultados presentados en el Cuadro 3.2 para los
Capıtulo 3. Craneosinostosis primaria 43
KL KG KH1 KH2 KTV Kχ2 KGH1 KGH2 KGTV KGχ2
K 9 9 5 7 6 8 9 9 9 6C 200 200 250 250 175 200 150 200 200 175λ 3 3 7 5 5 9 11 3 3 5γ - - - - - - 0.1 0.1 0.1 0.1
Cuadro 3.4: Parametros de las matrices de confusion del Cuadro 3.2: numero de topi-cos(K), numero de clusters para k-means (c), longitud de la palabra(λ), parametro del kernel
gaussiano(γ). En todos los casos α y β valen 50 y 1 respectivamente.
PCA PAS M C S M C
S 93.4 2.63 5.66 95.6 0 5.66M 2.2 60.53 86.79 1.1 55.26 13.21C 4.4 36.8 86.79 3.3 34.21 71.7
Cuadro 3.5: Matrices de confusion ( %) usando descriptores numericos: sagital(S), metopi-co(M), control(C).
mismos kernels con tasas de reduccion de 100 : 1, 85.7 : 1, y 75 : 1 respectivamente. El peor
resultado del Cuadro 3.6 se presenta con el kernel KG con una reduccion de dimensionalidad
de 60 : 1. Los parametros del Cuadro 3.6 se presentan en el Cuadro 3.8
3.6.3. Codificacion de informacion de forma en la MC y en la MCR
Un hallazgo interesante de este estudio es que la matriz de concurrencia posee redundancias que
pueden no ser utiles para la construccion de clasificadores efectivos. Las graficas de la Figura
3.21 muestran los resultados obtenidos con la metodologıa descrita en la seccion 3.5.7. Los
maximos en cada una de las curvas corresponde al numero de topicos que mejor describen las
distribuciones de los rasgos en las bolsas de palabras (seccion 3.5.4). Las graficas se construyeron
con α = 50, β = 1 y los parametros mostrados en el Cuadro 3.9. Resultados similares se
obtuvieron con α ∈ [1, 50] y β ∈ [1, 10].
Las graficas de la Figura 3.22 muestran los resultados obtenidos con la matriz de concurrencia
reducida calculada con la metodologıa descrita en la seccion 3.5.6. Los maximos en cada una de
las curvas corresponde al numero de topicos que mejor describen las distribuciones de los rasgos
en las bolsas de palabras (seccion 3.5.6) construido con el diccionario de rasgos reducido. Las
graficas se construyeron con α = 50, β = 1 y los parametros mostrados en el Cuadro 3.10.
Las matrices de confusion en el Cuadro 3.6 claramente sugieren que los clasificadores construidos
con las matrices de concurrencia reducidas superan a aquellos construidos con las matrices de
concurrencia tanto en las tasas de clasificacion como en la tasa de reduccion de dimensionalidad.
Capıtulo 3. Craneosinostosis primaria 44
KL Kχ2
S M C S M C
S 97.8 1.1 1.1 91.21 3.3 5.49M 0 94.74 5.26 0 89.47 1.53C 7.55 1.89 90.57 9.43 16.98 73.58
KG KGH1
S M C S M C
S 98.9 1.1 0 97.8 2.2 0M 0 86.84 13.16 0 92.11 7.89C 1.89 1.89 96.23 5.66 3.77 90.5
KH1 KGH2
S M C S M C
S 93.41 2.2 4.4 98.9 1.1 0M 0 86.84 13.16 0 94.74 5.26C 3.77 5.66 90.57 3.77 1.89 94.34
KH2 KGTVS M C S M C
S 95.6 2.2 2.2 96.7 1.1 2.2M 0 86.84 13.16 2.63 92.11 5.26C 3.7 7.55 88.68 3.77 0 96.23
KTV KGχ2
S M C S M C
S 93.41 3.3 3.3 96.7 2.2 1.1M 0 92.11 7.89 0 94.74 5.26C 3.77 7.55 88.68 5.66 1.89 92.45
Cuadro 3.6: Matrices de confusion ( %) con los kernels definidos en Cuadro 3.1: sagital(S),metopico(M), control(C). Las matrices de confusion se obtuvieron con la matriz de concurren-cia reducida. Las tasas de reduccion de dimensionalidad se presentan en el Cuadro 3.7 y losparametros en el Cuadro 3.8. Las celdas sombreadas, representan los mejores resultados del
cuadro.
KL KG KH1 KH2 KTV Kχ2 KGH1 KGH2 KGTV KGχ2
TRD 100 : 1 60 : 1 85.7 : 1 85.7 : 1 100 : 1 85.7 : 1 67 : 1 120 : 1 75 : 1 85.7 : 1
Cuadro 3.7: Tasas de reduccion de dimensionalidad (TRD) para los diferentes kernels delCuadro 3.6.
Por ejemplo; en el Apendice C se muestran los resultados de clasificacion de algunos de los
experimentos que se realizaron para estudiar como se comportan las tasas de clasificacion cuando
se varia el numero de topicos.
Ahora bien, de la Figura 3.22, se observo, que con la MRC, las graficas alcanzan su maximo
en los topicos Kmax = 2, 3, 4. En la primer tabla de la Figura 3.23, se presentan las matrices
de confusion al fijar el numero de topicos en K ∈ {2, 3, 4}. En la segunda tabla se exponen los
Capıtulo 3. Craneosinostosis primaria 45
KL KG KH1 KH2 KTV Kχ2 KGH1 KGH2 KGTV KGχ2
K 6 10 7 7 6 7 9 5 8 7C 175 200 250 250 250 250 100 75 100 175λ 9 7 13 11 3 13 9 7 9 11γ - - - - - - 1.5 0.1 0.3 0.1
Cuadro 3.8: Parametros de las matrices de confusion del Cuadro 3.6: numero de topi-cos(K), numero de clusters para k-means (c), longitud de la palabra(λ), parametro del kernel
gaussiano(γ). El valor de α y β son de 50 y 1 respectivamente.
0 20 40 60−1.15
−1.1
−1.05
−1
−0.95x 10
6
K
log
p(x;
K)
0 20 40 60−9.5
−9
−8.5
−8
−7.5x 10
5
K
log
p(x;
K)
0 20 40 60−8
−7.5
−7
−6.5x 10
5
K
log
p(x;
K)
Figura 3.21: Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima K con la matriz de concurrencia. En el Cuadro 3.9 se dan los parametros
con los que se generaron dichas graficas.
Matriz de concurrenciaKmax DM c λ Time(hr.)
4 198× 118800 150 11 8.35986 198× 118800 175 5 8.04929 198× 118800 200 3 8.0191
Cuadro 3.9: Parametros de las gaficas de la Figura 3.21: topico en el que se alcanzo el maximo(Kmax), dimension de la matriz (DM), numero de clusters para k-means (c), longitud de la
palabra (λ), tiempo en horas para generar las graficas (Time).
parametros de la primer tabla.El mejor desempeno de los resultados de la tabla se generaron
con la MRC (∗) usando el kernel ∗KGH2 con una tasa de reduccion de 150 : 1. De los resultados
obtenidos con K < 5 note que el kernel ∗KG tiene una tasa de reduccion de 300 : 1, ademas se
obtienen los mismos valores de la diagonal principal que el mejor resultado del Cuadro 3.2.
3.7. Discusion
La craneosinostosis primaria es una area importante de investigacion que requiere la creacion
de nuevos metodos para caracterizar la anatomıa craneal. El desarrollo de metodos cuantita-
tivos para analizar el complejo craneofacial humano es crucial en el estudio de anormalidades
craneales, ası como su relacion con el estado neurofisiologico de individuos afectados. Un paso
Capıtulo 3. Craneosinostosis primaria 46
0 20 40 60−5
−4.5
−4
−3.5
−3x 10
5
K
log
p(x;
K)
Matriz reducida
0 20 40 60−5.2
−5
−4.8
−4.6
−4.4
−4.2x 10
5
K
log
p(x;
K)
Matriz reducida
0 20 40 60−6.5
−6
−5.5
−5x 10
5
K
log
p(x;
K)
Matriz reducida
Figura 3.22: Logaritmo de la verosimilitud como una funcion del numero de topicos con α = 50y β = 1. Se estima el numero de topicos K con la matriz de concurrencia reducida. En el Cuadro
3.10 se dan los parametros con los que se generaron dichas graficas.
Matriz de concurrencia reducidaKmax DM c λ Time(hr.)
3 198× 55336 75 7 3.69364 198× 61438 100 9 4.11592 198× 62923 175 11 3.1184
Cuadro 3.10: Parametros de las gaficas de la Figura 3.22: topico en el que se alcanzo elmaximo (Kmax), dimension de la matriz(DM), numero de clusters para k-means (c), longitud
de la palabra(λ), tiempo en horas para generar las graficas(Time).
Parametro Rango Total de valores
c 50, 75, 100, 125, 150, 175, 200, 225, 250 9λ 3, 5, 6, 7, 8, 9, 11 7K 5, 6, 7, 8, 9, 10 6α 50 1β 1 1α∗ 0.05 1ν 0.01 : 0.3 en incrementos de 0.005 59γ −0.000001,−0.0001,−0.01, 0.1, 0.3, 0.7, 1.5, 3 8
Cuadro 3.11: Rangos de los parametros en el espacio de busqueda: numero de centros parak-means (c), longitud de las palabras (λ), numero de topicos (K), parametros del modelo LDA(α y β), nivel de significancia para obtener la matriz de concurrencia reducida (α∗), parametro
del kernel (ν) y parametro del kernel gaussiano (γ).
importante en esta direccion es el desarrollo de descriptores de forma que permiten la clasifica-
cion de las malformaciones por craneosinostosis.
En este trabajo hemos comparado el desempeno de clasificacion de descriptores simbolicos ba-
sados en los modelos generativo LDA y descriptores numericos que se utilizan tradicionalmente
para cuantificar la forma de contornos orientados.
Los descriptores simbolicos alcanzan tasas de error mucho menores que los descriptores numeri-
cos a tasas de reduccion de dimensionalidad de 100 : 1. Cabe destacar que los descriptores
Capıtulo 3. Craneosinostosis primaria 47
S M C
S 96.7 3.3 0KL M 2.63 92.11 5.26
C 7.55 7.55 84.91
S 94.51 2.2 3.3KG M 0 92.11 7.89
C 5.66 1.89 92.45
S 97.8 1.1 1.1∗KL M 0 94.74 5.26
C 7.55 3.77 88.68
S 97.8 1.1 1.1∗KG M 2.63 92.11 5.26
C 5.66 1.89 92.45
S 95.6 2.2 2.2∗KGH1 M 2.63 92.11 5.26
C 7.55 1.89 90.57
S 96.7 1.1 2.2∗KGH2 M 0 94.74 5.26
C 5.66 1.89 92.45
S 95.6 1.1 3.3∗KGTV M 0 92.11 7.89
C 3.77 5.66 90.57
S 97.8 1.1 1.1∗KGχ2 M 2.63 92.11 5.26
C 9.43 1.89 88.68
K c λ γ TRD
KL 4 50 9 - 150:1KG 4 175 3 - 150:1∗KL 3 200 11 - 200:1∗KG 2 125 7 - 300:1∗KGH1 4 125 7 0.3 150:1∗KGH2 4 125 7 3 150:1∗KGTV 4 175 13 0.3 150:1∗KGχ2 2 75 13 0.1 300:1Numero de topicos (K), numero de clusterspara k-means (c), longitud de la palabra(λ),
parametro del kernel gaussiano (γ), tasade reduccion de dimensionalidad (TRD).
Figura 3.23: Matrices de confusion ( %) de los mejores resultados obtenidos al variar el numerode topicos en K ∈ {2, 3, 4}. Resultados con la matriz de concurrencia y la matriz de concurrenciareducida (∗) y los kernels definidos en la seccion 3.5.4: sagital(S), metopico(M), control(C). Latabla de la derecha, contiene los parametros de las matrices de confusion. Las areas sombreadas
son los resultados mas representativos.
numericos pueden alcanzar tasas similares de clasificacion. Sin embargo, el incremento en desem-
peno de clasificacion implica que la probabilidad de sobreestimacion de parametros del clasi-
ficador se incrementa significativamente. Destacamos tambien que no encontramos diferencias
significativas en el desempeno de los algoritmos PCA y proyecciones aleatorias en la tarea de
clasificacion.
En este capıtulo tambien se analizo la capacidad del algoritmo de contexto de forma. Este
algoritmo es difıcil de aplicar en el problema que nos ocupa debido a que no es capaz de tratar
directamente con multiples contornos orientados para una sola forma craneal. Si bien, es posible
adaptar este algoritmo para procesar multiples contornos, se encontro que su desempeno para
caracterizar formas de manera simbolica es deficiente (datos no presentados).
Capıtulo 3. Craneosinostosis primaria 48
Un hallazgo interesante de este trabajo es que el nuevo metodo de seleccion de variables pro-
puesto en este trabajo de tesis elimina en forma efectiva informacion que no discrimina entre
los diferentes tipos de clases de craneos, sin comprometer las tasas de clasificacion. En general
las tasas de reduccion de dimensionalidad son mejores cuando se utiliza el diccionario de rasgos
reducido para construir los descriptores de forma.
Se mostro que el considerar las palabras de la matriz de concurrencia que son significativas
(matriz de concurrencia reducida) son una buena alternativa para caracterizar formas craneales
debido a que los resultados de clasificacion son comparables y en algunos casos mejores que las
que se obtienen con la matriz de concurrencia original.
Existen modelos generativos alternativos al LDA. Por ejemplo, el llamado PLSA (probabilistic
laten semantic analisys). Sin embargo, existen varias razones por las cuales los descriptores
basados en LDA ofrecen varias ventajas sobre los descriptores basados en PLSA.
El modelo PLSA se desarrollo originalmente para caracterizar el proceso generativo de docu-
mentos [20]. Ha sido usado exitosamente en las areas de aprendizaje por computadora y recono-
cimiento de clases de objetos [32, 35], analisis de escenas visuales [36] y clasificacion de formas
[21]. Sin embargo, este modelo tiene problemas serios con la sobreestimacion de parametros
[37, 38].
En las aplicaciones concernientes a la investigacion en craneosinostosis, el PLSA tiene limita-
ciones adicionales. Los parametros del modelo se calculan generalmente mediante metodos de
maxima verosimilitud (como el algoritmo EM), que en general produce una solucion que corres-
ponde a un mınimo local (esto es, los descriptores simbolicos basados en PLSA corresponden
a un extremo local de la funcion de verosimilitud). Diferentes corridas del algoritmo de esti-
macion producen diferentes soluciones locales. Esto se debe a que el algoritmo de estimacion
normalmente se inicializa con valores seleccionados al azar.
Si bien los resultados obtenidos en este trabajo sugieren que el desempeno de los descriptores
simbolicos basados en modelo PLSA y aquellos basados en el modelo LDA son comparables, el
uso del descriptores basados en LDA es el preferido para investigaciones en craneosinostosis. Los
descriptores simbolicos de forma no solamente se utilizan para clasificar. Tambien se utilizan
para caracterizar posibles asociaciones (a traves de modelos de regresion) entre la forma de
craneo y una diversidad de variables geneticas, fisiologicas o neurofisiologicas, que caracterizan
el estado de salud de un paciente. Por esta razon sugerimos que los descriptores simbolicos
basados en PLSA deben de examinarse cuidadosamente en sus aplicaciones en craneosinostosis.
El modelo LDA es un modelo generativo bien definido que generaliza correctamente nuevas for-
mas simbolicas [37] y puede utilizarse para crear modelos de regresion. Nuestra implementacion
del modelo LDA utiliza un procedimiento Monte Carlo que provee parametros del modelo que
Capıtulo 3. Craneosinostosis primaria 49
se calculan promediando sobre todas la soluciones locales de la funcion de verosimilitud [33], lo
que evita que ocurra una sobreestimacion de los parametros como en el caso del modelo PLSA.
Vale la pena mencionar que las tasas de error para un conjunto de craneos afectados con craneo-
sinostosis unicoronal fueron del orden del 30 %. Nosotros cremos que esto se debe principalmente
al numero reducido de muestras que tenemos para caracterizar este tipo de malformacion cra-
neal (un total de 16 craneos de infantes). Se requiere trabajo adicional para decidir si este es un
resultado significativo o solamente es una consecuencia relacionada con el tamano de la muestra.
3.8. Conclusiones
En sıntesis, hemos presentado una metodologıa que utiliza un modelo Bayesiano jerarquico pa-
ra clasificar craneos afectados por craneosinostosis. Tambien hemos presentado un metodo de
reduccion de dimensionalidad que opera en forma efectiva. Llevamos a cabo un estudio compa-
rativo con metodologıas estandar publicadas con anterioridad y mostramos que el desempeno
de los descriptores simbolicos de forma es superior al de los descriptores numericos estandar.
Los resultados que aquı presentamos deberan de confirmarse en el futuro con una base de da-
tos mayor a la utilizada, y con aplicaciones que van mas alla de una tarea de clasificacion de
craneos.
Capıtulo 4
Clasificacion de tejido tumoral en
gliomas del tallo cerebral en infantes
4.1. Introduccion
Los gliomas del tallo cerebral (BSG por sus siglas en ingles) son neoplasias con gran morbilidad,
de difıcil abordaje quirurgico por su patron infiltrativo y heterogeneo [39]. El tallo cerebral es la
parte del cerebro conectada a la medula espinal. Este se ubica en la seccion inferior del cerebro,
justo por encima de la base del cuello (Figura 4.1). Es ruta de comunicacion del cerebro con
la medula espinal y los nervios perifericos. Controla varias funciones autonomas, incluyendo la
respiracion, regulacion del ritmo cardıaco, la digestion de alimentos, la circulacion sanguınea,
entre otras.
Figura 4.1: El tallo cerebral (azul) controla las actividades que el cuerpo hace automatica-mente.
50
Capıtulo 4. Glioma del tallo cerebral 51
Los sintomas del BSG infantil varian y a menudo dependen de la edad y de la localizacion
del tumor. Algunos de los sıntomas pueden ser: la perdida del equilibrio, problemas visuales
y auditivos, dolor de cabeza matinal o dolor de cabeza que desaparece despues de vomitar,
somnolencia inusual, entre otros [39].
Figura 4.2: Imagen de RM de un paciente con glioma de tallo cerebral (flecha roja) .
Los tumores del tallo cerebral se consideran entre los mas agresivos de las neoplasias en la
poblacion pediatrica (Figura 4.2); representan entre el 8 % y el 10 % de las neoplasias del sistema
nervioso central [40]. La sobrevida de los pacientes difiere segun la localizacion del tumor. A
pesar de que el cancer es poco frecuente en ninos, los tumores cerebrales constituyen el tipo mas
comun de cancer en la infancia ademas de la leucemia o el linfoma [41].
La causa de la mayorıa de los tumores cerebrales en la infancia es desconocida. Algunas de
las herramientas que se utilizan para detectar y diagnosticar el BSG infantil, son imagenes
obtenidas con equipos de TC, espectrocopıa y RM. Estas ultimas, proporcionan informacion
mas detallada respecto a la anatomıa y de las caracterısticas del tumor. Las imagenes de RM,
son imprescindibles para definir la region cerebral sobre la que se asienta el tumor.
El tratamiento para el BSG depende de las caracterısticas del tumor. La estadificacion es el
proceso que se utiliza para determinar cuanto cancer hay y si el cancer se ha diseminado. La
importancia de conocer el estado del tumor es indispensable para determinar el tratamiento
a seguir. Desafortunadamente, no se dispone de un sistema de estadificacion estandar para el
BSG. El tratamiento depende del tipo de tumor, si este es difuso o focal. Cuando el tumor es
difuso, es un tumor que se ha diseminado de manera generalizada en el tronco encefalico. En
los tumores intrınsecos de tipo difuso, la sobrevida del paciente, en promedio es menor a un ano
despues de que se detecta el tumor [42]. Si el tumor es focal, se realiza una biopsia mediante la
remocion de parte del craneo y se emplea una aguja para extirpar el tejido danado.
Existen diferentes tipos de tratamiento para ninos con BSG, algunos son estandar. Elegir el
tratamiento mas adecuado es una decision que idealmente incluye al paciente, familia y equipo
Capıtulo 4. Glioma del tallo cerebral 52
de atencion medica. El tratamiento del paciente es supervisado por oncologos, neurocirujanos,
neurologos, entre otros especialistas.
Algunos de los tratamientos para combatir el cancer incluyen la radioterapia y la quimioterapia.
Estos tratamientos tienen como funcion, impedir la reproducion de las celulas cancerosas. La
radioterapia y la quimioterapia son tratamientos agresivos y tienen una gran limitacion; su escasa
especifidad afectando otras celulas y tejidos normales. Algunos de los efectos secundarios son;
la caıda del cabello, anemia, hemorragias, diarrea, entre otras secuelas graves. Se han observado
efectos debilitantes en el crecimiento y el desarrollo neurologico en pacientes con BSG despues de
las terapias, especialmente en ninos. Estos tratamientos benefician temporalmente a la mayorıa
de los pacientes, sin embargo, mas del 90 % sucumben ante la enfermedad en poco tiempo. Por
esta razon, se buscan alternativas medicas para reducir el numero de sesiones que se les da a los
pacientes y conjuntamente, metodologıas cualitativas que permitan definir con mayor precision
el area del tejido afectado por BSG.
4.2. Problematica
La mayorıa de los tumores del tallo cerebral son de tipo difuso [42] y suelen diagnosticarse sobre
la base de hallazgos clınicos y por medio de estudios de imagenes neurologicas. Con frecuencia
se observa una gran variabilidad histologica en un solo tumor.
Las imagenes medicas, permiten visualizar el estado del tumor, sin embargo, cuando el tumor
es difuso difıcilmente se puede notar el contraste entre el tejido sano y el tejido afectado. Lo
anterior, debido a que los niveles de gris son mas homogeneos en zonas con diferentes tejidos.
Las dos imagenes a la derecha en la Figura 4.3 muestran un corte en el que se aprecia el tejido
infiltrativo en el tallo cerebral. En las imagenes se observa claramente el tejido afectado por la
neoplasia.
Figura 4.3: Imagenes del tallo cerebral obtenidas con RM. La primer imagen es de tejido sanomientras que en las 2 ultimas hay presencia de BSG. En la segunda imagen se puede intentardelimitar el tumor mientras que en la tercera se vuelve una tarea complicada debido a que eltumor no esta bien definido en su forma, a simple vista no se puede distinguir facilmente entre
el tejido sano y afectado.
Capıtulo 4. Glioma del tallo cerebral 53
A la fecha, existen pocas herramientas de analisis exploratorio y cuantificacion que permitan
hacer una discriminacion confiable entre tejido sano y tejido canceroso en pacientes con BSG.
En la practica clınica el medico realiza su interpretacion utilizando criterios subjetivos sobre
la base de la visualizacion de las imagenes neurologicas. La carencia de metodos cuantitativos
para caracterizar tejido tumoral en el tallo cerebral ha impedido el desarrollo de metodos para
tratar de manera eficiente y segura a pacientes afectados.
4.2.1. Objetivo
En este capıtulo se explora una metodologıa que caracteriza la textura del tejido en el tallo
cerebral en terminos de descriptores simbolicos calculados a partir de imagenes de RM tipo
T2. La idea es utilizar dichos descriptores para construir clasificadores de tejido sano y tejido
afectado por glioma del tallo cerebral. El objetivo especıfico de este capıtulo es el siguiente:
1. Dada una base de datos de imagenes T2 de RM de tallo cerebral y cerebelo obtenidas en ninos
que padecen BSG y controles normales desarrollar, descriptores simbolicos de textura para
construir clasificadores que discriminan tejido sano y tejido afectado por glioma.
4.3. Contribuciones
En este capıtulo mostramos que los descriptores de textura (caracterısticas SIFT) que se utilizan
con mucho exito en el procesamiento de imagenes naturales ofrece un desempeno pobre en el
analisis de imagenes de resonancia magnetica (T2).
4.4. Metodologıa
En esta seccion se describe nuestra metodologıa para caracterizar tejido afectado por BSG con
base en imagenes T2 de RM (ver seccion 2.6). Tambien describimos detalladamente la fuente y
metodos de preprocesamiento de los datos de las imagenes de BSG.
4.4.1. Imagenes de resonancia magnetica
En este trabajo todos los descriptores de textura se calculan a partir de regiones de interes en
imagenes T2 de RM (ver seccion 2.6 del capıtulo 2). Para estandarizar las mediciones se utilizan
vistas laterales calibradas de reconstrucciones tridimensionales del cerebro. Los descriptores de
textura se calculan a partir de imagenes que se ubican en un plano trazado en forma paralela
Capıtulo 4. Glioma del tallo cerebral 54
Figura 4.4: Los dercriptores simbolicos de textura presentados en este trabajo se calculana traves de imagenes de resonancia magnetica que se seleccionan en terminos de referencias
anatomicas bien definidas.
a la base del craneo a la altura de los canales auditivos. El plano correspondiente a la base del
craneo se calcula como se hizo en la seccion 3.5.2 del capıtulo 3 (Figura 4.4).
Figura 4.5: Imagenes T2 de RM. La primera es de un paciente sano donde la zona de interesabarca el tallo cerebral y el cerebelo. La segunda imagen es de un paciente con BSG. La zona
de interes cubre el tejido afectado por el tumor.
En el caso de imagenes de pacientes con BSG, la region de interes se segmenta manualmente
para aislar la region anatomica que corresponde al tumor. En imagenes de pacientes sanos, la
region de interes se identifica con el tallo cerebral y el cerebelo (Figura 4.5). Para seleccionar las
regiones de interes, se calcularon mascaras de forma semiautomatica como las que se muestran
en la Figura 4.6. Una mascara es una imagen binaria util para para separar el objeto de interes
respecto del resto de los componentes de la imagen.
Figura 4.6: Mascaras utilizadas para seleccionar las regiones de interes de las imagenes de laFigura 4.5.
Capıtulo 4. Glioma del tallo cerebral 55
4.4.2. Propuesta metodologica
La carencia de metodos cuantitativos que permitan caracterizar tejido sano del tejido enfermo en
imagenes de RM del tallo cerebral, han motivado el desarrollo y el uso de descriptores simbolicos
de textura (DST). En esta seccion se presenta el algoritmo para clasificar tejido afectado por
BSG.
El proceso consta de dos etapas. En la primera se preprocesan las imagenes y en la segunda
etapa se realiza la tarea de clasificacion de tejido. En los algoritmos propuestos se hace referencia
al nombre de la funcion que se implementa en el paso especıfico en la tabla del pseudocodigo.
El nombre de la funcion se anota en italicas y entre parentesis, con el objeto de simplificar la
presentacion del pseudocodigo.
4.4.2.1. Preprocesamiento de las imagenes
Entrada: a) Un grupo de imagenes que se divide en dos subconjuntos: imagenes de pa-
cientes afectados por BSG IA = {I1, I2, . . . , Iu} e imagenes de pacientes sanos IS =
{I1, I2, . . . , Iv}. Las imagenes se ubican en un plano trazado en forma paralela a la ba-
se del craneo a la altura de los canales auditivos (seccion 4.4.1). El conjunto total de
imagenes I = IA⋃IS , tiene cardinalidad |I| = u + v, b) Un conjunto de mascaras
M = {M1, . . . ,Mu,Mu+1, . . . ,Mu+v} de las imagenes en I con las que se limita la zo-
na de interes en cada imagen (Figura 4.6), c) Parametro c cuyo significado se describe en
las secciones que siguen.
Salida: Regiones R∗ y bolsas de rasgos BR∗. Ambos conjuntos de cardinalidad D. Ademas
el diccionario de rasgos de texto DRT .
1. Extraccion de caracterısticas SIFT (CalculaSIFT ): Para cada imagen en I se aplica
la transformada SIFT (Scale Invariant Feature Transform). El resultado es el conjunto de
caracterısticas SIFT.
La transformada SIFT fue propuesta por David Lowe [45]. Fue inicialmente desarrollada
para aplicaciones de reconocimiento de objetos en una imagen [46]. El proceso para extraer
caracterısticas SIFT se resume en dos partes:
a) Extraccion de puntos de interes: Se extraen puntos de interes de la imagen a
partir de una diferencia de gaussianas (DoG) a diferentes escalas. Los puntos de
interes son resultado de una busqueda de extremos (maximos y mınimos locales) en
un espacio de escalas construido a partir de diferencias de gaussianas.
b) Calculo de descriptores para los puntos de interes: Cada punto de interes,
se representa por un descriptor, que es un vector de dimension 128. El descriptor,
Capıtulo 4. Glioma del tallo cerebral 56
se calcula a partir de los gradientes de la imagen en un entorno local del punto.
El descriptor es invariante a traslacion, rotacion y escala. Tambien es parcialmente
invariante a cambios en la iluminacion y punto de vista.
El par formado por un punto de interes de la imagen y su descriptor correspondiente se de-
nomina caracterıstica SIFT del punto de interes. El conjunto de caracterısticas de puntos
SIFT de la i-esima imagen en I se identifica como CSi = {SIFTi1, SIFTi2, . . . , SIFTin},donde n es el numero de puntos de interes que arrojo la transformada SIFT. La j-esima ca-
racterıstica de la i-esima imagen se define como SIFTij = {puntoDeInteresij , descriptorij}.El conjunto de caracterısticas SIFT de las imagenes en I es CS = {CS1, . . . , CSu, CSu+1, . . .
, CSu+v}.
Para cada imagen en I, la transformada SIFT se aplica en las zonas de interes definidas
por las mascaras en M . En la Figura 4.7, se marcan los puntos de interes en los que se
calcula la transformada SIFT (simbolos +).
Figura 4.7: Posiciones en los que se calcula la transformada SIFT con el algoritmoimplementado por David Lowe de las imagenes de la Figura 4.5.
En el apendice B, se describe con mayor detalle el proceso para calcular los SIFT en
una imagen. Li Fei-Fei [47], presenta un modelo generativo para reconocer objetos en
una escena usando los SIFT para caracterizar objetos. En esta propuesta se utilizo un
algoritmo similar al de [47] para caracterizar tejido del tallo cerebral y el cerebelo.
2. Asignacion de etiquetas simbolicas a los puntos de interes (AsignaEtiquetaSimboli-
ca): Etiquetas simbolicas se asignan a los puntos de interes que se calcularon con la
transformada SIFT para cada una de las imagenes. Las etiquetas simbolicas se obtienen
aplicando el algoritmo de k-means a todos los descriptores (descriptorij) del conjunto CS.
Recuerdese ademas que cada descriptor es un vector de 128 dimensiones. El numero de
centros del algoritmo k-means es el parametro c seleccionado por el usuario (Figura 4.8).
Para la i-esima imagen en I, las etiquetas simbolicas resultantes se agrupan en el conjunto
TSi = {ei1, ei2, . . . , ein}, en donde eij corresponde a la etiqueta asociada al descriptor
del punto de interes SIFTij ∈ CSij , y en donde ni es el numero de elementos en CSi.
Definimos TS = {TS1, . . . , TSu, TSu+1, . . . , TSu+v}.
Capıtulo 4. Glioma del tallo cerebral 57
**
*
*3
1 2
4
6
5
* **
*
*
*
b b
cb
a
c
*
5 3 7 . . . 3 2
1 5 7 . . . 9 1
9 1 1 . . . 7 1
6 2 7 . . . 1 9
7 3 7 . . . 5 5
6 8 7 . . . 1 1*5
4
3
2
1
6
1 2 ... 128
2
2
3
2
1
3
a
b
c
b
b
c
Descriptor k−means Asigna etiqueta simbólica
Figura 4.8: De izquierda a derecha: Los (∗) en la imagen senalan la posicion de puntos deinteres calculados con la transformada SIFT y sus correspondientes descriptores (vectorde dimension 128). El algoritmo de k-means se aplica a todos los descriptores de todaslas imagenes en I. El resultado es un conjunto de k clusters que se utilizan para etiquetasa los descriptores. En este ejemplo del juguete hay 3 clusters etiquetados como a, b y c.
3. Subdivision de imagenes utilizando segmentacion con granularidad fina (Divi-
deRegiones): Cada imagen en I se segmenta utilizando el algoritmo descrito en [44]. El
conjunto de regiones producto de la segmentacion para la i-esima imagen se denota como
Ri, donde Ri = {Ri1, Ri2, . . . , Ril}, Rij es la j-esima region de la i-esima imagen en I, y l
es el numero de regiones que arrojo el algoritmo de segmentacion para la i-esima imagen.
Definimos R = {R1, . . . , Ru, Ru+1, . . . , Ru+v}.
a) Algoritmo de segmentacion [44] (SobreSegmentaImagen): Una imagen se repre-
senta en terminos de un grafo G = (V,E) no dirigido con nodos υi ∈ V (pixeles de la
imagen) y aristas e(υi, υj) ∈ E que conectan los nodos (pixeles vecinos). Cada arista
tiene un peso w((υi, υj)). El peso, es una medida de similaridad entre dos nodos υi y
υj . En la Figura 4.9, se ilustra un ejemplo de la representacion de una imagen como
un grafo no dirigido, los pesos son el resultado de promediar los niveles de gris entre
2 nodos conectados. Una segmentacion, es la agrupacion de un subconjunto de nodos
1 2 3
654
7 98
56 123.5
83 115.5
22 117 122
103.5 162.5 132
183 179
0 112 135
44 109
163 203 155
122
Figura 4.9: En la izquierda se presenta una imagen de dimension 3 × 3 en escala degrises, por el centro se muestran los niveles de gris asociados a la imagen y finalmente enla parte derecha el grafo no dirigido correspondiente a la imagen el cual esta compuestopor υ = 9 nodos y 12 aristas. La medida de similaridad es el promedio de los niveles de
gris entre 2 nodos vecinos.
como se ilustra en el ejemplo de la Figura 4.10.
Capıtulo 4. Glioma del tallo cerebral 58
������������������������������������������������
������������������������������������������������
������������
������������
���������������
���������������
1 2 3
654
7 98
r r
r
1 2
3
Figura 4.10: Segmentacion de una imagen en 3 regiones r1, r2, r3. Los elementos de cadaregion son: r1 = {υ1, υ4}, r2 = {υ2, υ3, υ5, υ6, υ9} y r4 = {υ7, υ8}.
La segmentacion se aplica solo en las zonas de interes de cada imagen en I definidas por
las mascaras M . En la Figura 4.11, se muestra la segmentacion de las imagenes de la
Figura 4.5.
Figura 4.11: Segmentacion de las zonas de interes de las imagenes de la Figura 4.5. Seusa el algoritmo de Pedro F. Felzenszwalb.
4. Construccion de bolsas de rasgos de textura (ConstruyeBRTs): La entrada de este
proceso son TS y R. La salida es el conjunto de bolsas de rasgos de textura BRT . Los
elementos de BRT forman el conjunto {BRT1, . . . , BRTu, BRTu+1, . . . , BRTu+v}. Para
la i-esima imagen en I se construye un conjunto de bolsas de rasgos como BRTi =
{BRTi1, BRTi2, . . . , BRTil}, l es igual al numero de regiones en la i-esima imagen en I.
El numero total de bolsas de rasgos de textura para la i-esima imagen es igual al numero
de regiones en las que se segmento esta; es decir, el numero de elementos en Ri. La j-esi-
ma bolsa de la i-esima imagen, BRTij , se construye agrupando las etiquetas simbolicas
correspondientes a los puntos de interes que se localizan dentro de la la j-esima region Rij(Figura 4.13). El ejemplo de juguete de la Figura 4.12 ilustra el proceso de construccion
de las bolsas de rasgos de textura.
5. Concatena los elementos en R y BRT (AgrupaRyBRT ): Los elementos en R∗ =u+v⋃i=1
Ri resultan de concatenar todas las regiones generadas de las imagenes en I. BRT ∗ =
u+v⋃i=1
BRTi es la concatenacion de las bolsas de rasgos de las imagenes en I. El operador⋃se ilustra con un ejemplo sencillo. Sean R1 = {R11, R12} y R2 = {R21, R22, R23},
Capıtulo 4. Glioma del tallo cerebral 59
*
**
*
*
*
b b
cb
a
c
r1
r r2 3
BR1
BRBR2 3
=b =b c b = =c a= 13 211 12 1 =3 12 3eeeee e
Figura 4.12: Construccion de las bolsas de rasgos de una imagen. La imagen se divideen 3 regiones. Las etiquetas simbolicas asociadas a cada region dan forma a las bolsasde rasgos. Las bolsas de rasgos de este ejemplo son: BR1 = {b, b, c}, BR2 = {b} y
BR3 = {c, a}.
Figura 4.13: Regiones generadas con el algoritmo de Felzenszwalb, el simbolo + repre-sentan la localizacion de las caracterısticas SIFT. Las primeras dos imagenes son de tejido
sano, mientras que las dos ultimas son de tejido afectado por BSG.
entonces R1⋃R2 = {R11, R12, R21, R22, R23} = {R∗1, R∗2, R∗3, R∗4, R∗5}. La cardinalidad de
R∗ y BRT ∗ es D, con D =u+v∑i=1|Ri|.
6. Obtencion del diccionario de rasgos de textura (DiccionarioRasgosTextura): El dic-
cionario de rasgos de textura DRT esta formado por las c etiquetas simbolicas calculadas
con el algoritmo k-means.
El algoritmo descrito en el proceso anterior para generar las regiones y las bolsas de rasgos de
las imagenes se resume en el Algoritmo 5.
Algorithm 5 Pre procesamiento de las imagenes1: Entrada: IA, IS , M , c2: Salida: R∗, BRT ∗
3: CS = CalculaSIFT(IA, IS , M)4: TS = AsignaEtiquetaSimbolica(CS, c)5: R = DivideRegiones(IA, IS , M)6: BRT = ConstruyeBRTs(TS, R)7: [R∗, BRT ∗] = AgrupaRyBRT(R, BRT )8: DRT = DiccionarioRasgosTextura(c)
Capıtulo 4. Glioma del tallo cerebral 60
4.4.2.2. Clasificacion de tejido
El algoritmo para clasificar tejido sano vs tejido afectado por BSG es como sigue:
Entrada: a) El conjunto de regiones R∗ de cardinalidad D. El conjunto R∗ se divide en
dos subconjuntos: regiones de entrenamiento R∗E = {R∗1, . . . , R∗D−1} y region de prueba
R∗P = {R∗D}. Las regiones en R∗E estan identificadas como regiones de tejido sano (0)
o regiones de tejido afectado por BSG (1). b) El conjunto de bolsas de rasgos BRT ∗
asociadas a las regiones del conjunto R∗. c) El diccionario de rasgos de textura DRT .
Otros parametros del algoritmo son; nciclosBootstrap, α∗ y ν. El significado de estos
parametros se describe en los parrafos que siguen.
Salida: Etiqueta de la region en R∗P .
1. Calculo de la matriz de concurrencia de textura (MatrizConcurrenciaTextura): En
este paso se construye una matriz que codifica la concurrencia de los rasgos del DRT en
las BRTs∗ [27]. Los elementos de la matriz almacenan el numero de veces (frecuencia)
que los rasgos aparecen en cada bolsa de rasgos. A esta matriz se le conoce como matriz
de concurrencia de textura (MCT ). Los renglones de la MCT corresponden en nuestro
trabajo a las BRT ∗ y las columnas representan los rasgos que constituyen el DRT . La
MCT es de dimension D×|DRT |. En la Figura 4.14 se presenta la matriz de concurrencia
de las regiones de tejido sano y la matriz de concurrencia de las regiones de tejido afectado
por BSG. La ultima grafica de la Figura 4.14, resulta del calculo de la diferencia numerica
de las primeras dos imagenes.
Tejido sano
20 rasgos
2512
bol
sas
de r
asgo
s
2 4 6 8 10 12 14 16 18 20
500
1000
1500
2000
2500
Tejido afectado por BSG
20 rasgos
1204
3 bo
lsas
de
rasg
os
2 4 6 8 10 12 14 16 18 20
2000
4000
6000
8000
10000
120002 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Palabras
Dif
eren
cia
error = 2.2866
Figura 4.14: De izquierda a derecha: MCT de tejido sano, MCT de tejido afectado porBSG y grafica que refleja la diferencia de las matrices presentadas en los primeros dos
cuadros de esta figura.
2. Seleccion de variables para construir la matriz de concurrencia reducida (Ma-
trizConcurrenciaReducida): La entrada a este proceso es la matriz de concurrencia de
textura calculada en el paso anterior. La salida del proceso es la matriz reducida de con-
currencia de textura (MCRT) que se construye utilizando un diccionario de rasgos reducido
Capıtulo 4. Glioma del tallo cerebral 61
(V ). Este diccionario solo contiene rasgos que diferencian el tejido sano del tejido afectado
con BSG. Todos aquellos rasgos que son significativos constituyen el V . El diccionario de
rasgos reducido, se define como
V = VA⋃VS , (4.1)
en donde A y S representan las clases de tejido afectado y tejido normal, respectivamente.
El algoritmo de seleccion de variables se divide en dos fases:
Muestreo Bootstrap (MuestreoBootstrap): Se generan estadısticos que caracterizan
la hipotesis nula, es decir, la hipotesis que sugiere que no hay diferencias significativas
entre los rasgos de las dos clases. Esta fase utiliza el algoritmo bootstrap para estimar
empıricamente las distribuciones de la hipotesis nula. El bootstrap se aplica sobre el
conjunto de diferencias que existen entre la MCT de las regiones de tejido sano y
la MCT obtenida de las regiones de tejido afectado por BSG. La metodologıa para
generar el estadıstico es el mismo que se describe en el Algoritmo 2 del capıtulo
3, donde los parametros de entrada de este algoritmo son las bolsas de rasgos de
las clases A y S. La salida de este algoritmo es; una matriz de DTAB de dimension
nciclosBootstrap× (|A|+ |B|), y los conjuntos de rasgos RTA y RTB de las clases A
y S.
Selecciona rasgos (SeleccionaRasgos): Se ejecuta una prueba de hipotesis con un
nivel de confianza α∗ para determinar que rasgos del DRT reflejan diferencias signi-
ficativas entre las dos clases. El proceso para determinar la significancia es el mismo
que se realiza en el Algoritmo 3 del capıtulo 3. La entrada a este algoritmo son
DTAB, RTA y RTB obteniendo el diccionario de rasgos reducido V .
Una vez determinados los elementos de V , se genera la MCRT de la misma manera como
se describe en paso anterior.
3. Construccion de los clasificadores con maquinas de soporte vectorial (Entrena-
Clasificador): Los clasificadores de formas craneales se construyen por medio de maquinas
de soporte vectorial tipo ν (ν-SVMs por sus siglas en ingles). Los clasificadores se en-
trenaron con los renglones de la matriz de MCRT del conjunto de entrenamiento. Las
maquinas de soporte vectorial se construyen con el kernel de base radial (RBF).
KRBF (xi, xj) = e−γ‖xi−xj‖2, con γ > 0 (4.2)
.
El Algoritmo 6 resume la metodologıa descrita para construir clasificadores de textura deriva-
dos de descriptores simbolicos de textura. Todos los parametros libres del modelo ( c, ν y α∗)
se calculan por medio de metodos de validacion cruzada.
Capıtulo 4. Glioma del tallo cerebral 62
Algorithm 6 Clasificacion de textura1: Entrada: R∗E , R∗P , BRT ∗, DRT , nciclosBootstrap, α∗, ν2: Salida: Etiqueta de la region de prueba.3: MCTE = MatrizConcurrencia(BRT ∗E , DRT )4: MCTP = MatrizConcurrenciaTextura(BRT ∗P , DRT )5: MCRTE = MatrizConcurrenciaReducida(MCTE , nciclosBootstrap, α∗)6: MCRTP = MatrizConcurrenciaReducida(MCP , nciclosBootstrap, α∗)7: f = EntrenaClasificador(MCRTE , ν)8: NuevaEtiqueta = f(MCRTP )
4.4.3. Segmentacion de BSG en imagenes T2
En esta seccion se presenta una metodologıa para segmentar tejdo afectado por BSG en imagenes
T2 de RM. La idea basica es utilizar el LDA (Apendice A) para caracterizar texturas similares
en las imagenes, utilizando como medida de similitud los topicos que arroja el algoritmo LDA
a partir de la matriz reducida de concurrencia.
El algoritmo es como sigue:
Entrada: Conjunto de regiones R∗ de cardinalidad D y la matriz de concurrencia reducida
de textura MCRT de R∗. Parametros del modelo LDA α y β. Numero de topicos K.
Salida: Topicos asociados a las regiones en R∗ .
1. Estima la distribucion de los topicos en las bolsas de rasgos de las regiones
usando el modelo generativo LDA (Estimaz): El modelo generativo LDA ( apendice
A) representa la bolsa de rasgos de las regiones de tejido como mezclas probabilısticas
de topicos. Los parametros a estimar de este modelo son z, θ y φ dados K y x = {xij},en donde i = 1, . . . , Nj ; e j = 1, . . . , D; Nj es el numero de rasgos de la j-esima region.
Para estimar estos parametros se utiliza un metodo Montecarlo de cadenas de Markov. El
parametro que nos interesa es la distribucion de los topicos z en la MCRT de las regiones
de tejido.
2. Asigna topicos a las regiones en R∗ usando z (AsignaTopicos): Con la distribucion
de z se asigna el topico a las regiones en R∗.
Algorithm 7 Asignacion de topicos a las regiones de textura1: Entrada: R∗, MCRT , α, β, K2: Salida: Topico asignado a los elementos en R∗.3: z = Estimaz(MCRT , α, β, K)4: AsignaTopicos(R∗, z)
Capıtulo 4. Glioma del tallo cerebral 63
4.4.4. Muestra poblacional
La muestra poblacional para el analisis de textura se compone de 122 imagenes T2 de resonancia
magnetica. Los estudios son de infantes que padecen BSG y de pacientes sanos cuyas edades
oscilan entre los 3 y 14 anos de edad. Las mediciones fueron registradas antes de que los pacientes
fueran sometidos a tratamientros para tratar el BSG. Se tienen 45 imagenes BSG y 67 imagenes
de pacientes sanos. Los estudios de RM, provienen de una base de datos del Children’s National
Medical Center, Washington D. C.
4.5. Resultados
4.5.1. Clasificacion de textura con el diccionario de rasgos reducido (Algo-
ritmo 6)
Los resultados de clasificacion del Algoritmo 6 se presentan en la Figura 4.15. En la tabla se
observa que el algoritmo de clasificacion tiene un desempeno pobre, a pesar de que los resultados
de la seleccion de variables sugerian que existen diferencias significativas entre los rasgos que
caracterizan a las dos diferentes clases de tejido. Los valores de los parametros del algoritmo se
variaron en los rangos del Cuadro 4.1. Los valores de ν y γ que utilizamos en los experimentos
son los propuestos por Chih-Wei [48]. Los resultados no cambiaron aun cuando se hicieron
pruebas variando el tamano del diccionario de rasgos (c). En la Figura 4.16 se observa que con
60 etiquetas el numero de rasgos de textura que codifican diferencias significativas son 22.
La grafica de la Figura 4.17 muestra que el tamano de las regiones segmentadas con el algo-
ritmo de Felzenswalf es proporcional al numero de caracterısticas SIFT que se localizan dentro
las regiones. Tomando como referencia los resultados de la grafica, se realizaron experimentos
variando la granularidad de las regiones generadas en cada imagen con el objeto de variar el
numero de descriptores SIFT en cada region. Sin embargo, las tasas de clasificacion obtenidas
son semejantes a las presentadas en la Figura 4.15.
Parametro Rango Total de valores
c 20, 40 2ν 0.000005, 0.00007, 0.00001, 0.0005, 0.0008, 0.001, 0.005 7γ 0.055, 0.06, 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9 11α∗ 0.05 1
Cuadro 4.1: Rangos de los parametros en el espacio de busqueda: numero de centros para k-means (c), nivel de significancia para obtener la matriz de concurrencia reducida α∗ y parametros
del kernel (ν, γ).
Capıtulo 4. Glioma del tallo cerebral 64
KRBF
S A
1 S 71.84 28.16A 76.88 23.12
2 S 42.1 57.9A 76.88 23.12
3 S 61.32 38.68A 66.59 33.41
4 S 69.87 30.13A 73.33 26.67
5 S 49.65 50.35A 48.91 51.09
6 S 52.79 47.21A 53.29 46.71
7 S 56.31 43.69A 53.5 46.5
8 S 43.93 56.07A 42.24 57.76
error γ ν c
1 0.6954 0.0005 0.6 202 0.4470 0.06 0.001 203 0.5262 0.8 0.0005 204 0.6683 0.5 0.001 205 0.4914 0.85 0.0005 406 0.5232 0.9 0.0005 407 0.5193 0.6 0.0008 408 0.4445 0.5 0.005 40
error de clasificacion,parametros de la SVM (γ y ν),
numero de centros para k-means (c).
Figura 4.15: Matrices de confusion ( %): tejido sano (S) y tejido afectado por BSG (A). Resul-tados de la implementacion del Algoritmo 6. La tabla de la derecha, contiene los parametros
de las matrices de confusion de la primer tabla.
4.5.2. Segmentacion de BSG usando el Algoritmo 7
El analisis detallado de la matriz de coocurrencia reducida utilizando los metodos de la seccion
3.5.7 sugirieron que los descriptores simbolicos de textura se podian segregar en alrededor de 20
tipos diferentes. Este numero se calculo a partir de la informacion en la grafica de la Figura 4.18.
Los resultados sugieren que la segmentacion de tumor utilizando esta metologıa, es ineficaz.
En la Figura 4.19 se muestran dos imagenes de tejido afectado por BSG (primer columna) y a
la derecha las regiones generadas con el algoritmo de Felzenszwalb. Los topicos asignados a las
regiones de la Figura 4.19 con el modelo LDA se muestra en las Figuras 4.20 y 4.21. En estas
imagenes se usaron valores de K en [3, 5, 10, 21]. Los valores de K = [10, 21] se consideraron por
ser los maximos alcanzados en la grafica de la Figura 4.18.
4.6. Discusion y conclusiones
En este capıtulo se desarrollo un algoritmo para clasificar tejido sano vs tejido afectado por
glioma en el tallo cerebral y cerebelo. Los resultados sugieren que la metodologıa propuesta no
es eficaz para discriminar entre tejido sano y tejido afectado por BSG. Aqui se sugieren algunas
causas probables por las cuales el algoritmo no es eficiente.
Capıtulo 4. Glioma del tallo cerebral 65
2 4 6 8 10 12 14 16 18 20
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
e = 20
α = 0.05
5 10 15 20 25 30 35 40
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
e = 40
α = 0.05
10 20 30 40 50 60
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
e = 60
α = 0.05
0 50 100 1506
8
10
12
14
16
18
20
22
Etiquetas
Ele
men
tos
sign
ific
ativ
os
Figura 4.16: Calculo de las palabras significativas variando el numero de etiquetas utilizadasen k − means (e). Las etiquetas que estan por debajo de la lınea punteada son las palabrasque se consideran significativas usando α = 0.05. La ultima grafica (segundo renglo, segundacolumna) muestra la relacion entre el numero de etiquetas y el numero de palabras significativas
obtenidas con cada una de estas
0 200 400 600 800 1000 12000
20
40
60
80
100
120
140
160
Tamaño de la región
Núm
ero
de S
ifts
Figura 4.17: Relacion entre el tamano de la region y el numero de caracterısticas SIFT loca-lizadas en cada region. En esta grafica se incluyen regiones de tejido sano y regiones de tejido
afectado por BSG.
El numero de muestras representativas de tejido sano y tejido enfermo pueden no ser sufi-
cientes en relacion a la variabilidad intrinseca de las imagenes T2 de RM y la variabilidad
morfologica del tejido que existe en las diferentes poblaciones de sujetos.
Las caracterısticas SIFT han sido utilizadas con gran exito en una gran variedad de ta-
reas de vision computacional. Sin embargo, nuestros resultados sugieren que estos rasgos
calculados en imagenes T2 de RM no son efectivos.
Capıtulo 4. Glioma del tallo cerebral 66
0 10 20 30−2.5
−2
−1.5
−1
−0.5x 10
5
K
log
p(x;
K)
Matriz reducida
Figura 4.18: Logaritmo de la verosimilitud como una funcion del numero K de topicos conα = 50 y β = 1, calculada para una matriz de concurrencia similar a las de la Figura 4.14. Lamatriz incluye las dos clases de tejido de la muestra poblacional. El error estandar de los puntos
calculados es menor que el tamano de los sımbolos sombreados.
Figura 4.19: Division de las imagenes de la primera columna usando el algoritmo de Pedro F.Felzenszwalb (imagenes de la segunda columna). Las imagenes son de tejido afectado por BSG.
Las caracterısticas SIFT estan intimamente relacionadas con operadores de extraccion de
textura. Esto significa, que las caracterısticas SIFT no son capaces de caracterizar texturas
en imagenes de T2 de RM, al menos en lo que se refiere al tallo cerebral y el cerebelo.
Los descriptores simbolicos de textura utilizan un modelo de bolsas de rasgos para cara-
cerizar la morfologıa del tejido sano o afectado por BSG. Un problema potencial en esta
representacion, es que no se preserva la relacion espacial que existe entre las regiones que
Capıtulo 4. Glioma del tallo cerebral 67
Figura 4.20: Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primera columna se
usa K = 3 y en la segunda K = 5.
genera el algoritmo de segmentacion de alta granularidad. Dicha correlacion puede ser
importante para que sea posible caracterizar apropiadamente la textura.
A pesar de que los resultados no son positivos, si sugieren nuevas lıneas de estudio que pueden
requerir el uso de las distribuciones de probabilidad conjuntas en vez de distribuciones marginales
de probabilidad como las que se utilizan implicitamente en las caracterısticas SIFT y otros tipos
de filtros de textura.
Capıtulo 4. Glioma del tallo cerebral 68
Figura 4.21: Asignacion de topicos a las regiones de la Figura 4.19 con el modelo LDA (Al-goritmo 7). Los parametros del modelo LDA son α = 50 y β = 1. En la primera columna se
usa K = 10 y en la segunda K = 21.
Capıtulo 5
Conclusiones
En este trabajo exploramos la aplicacion de modelos simbolicos de forma para caracterizar
cuantitativamente formas anatomicas. Las aplicaciones se realizaron en dos problemas medicos
distintos. En primer lugar, se caracterizo la morfologıa de craneos afectados por craneosinostosis
primaria, con el objeto de discriminar las distintas malformaciones craneales. En segundo lugar,
se estudio el desempeno de los descriptores simbolicos de textura, en una tarea de clasificacion
de tejido sano y tejido tumoral producido por un glioma.
En general, los resultados obtenidos en las dos aplicaciones arrojaron informacion interesante.
En la primera aplicacion fue posible construir clasificadores que producen tasas bajas de error
utilizando descriptores de forma de baja dimensionalidad. En la segunda aplicacion, se pudo
determinar que los descriptores de textura que se utilizan frecuentemente en problemas de vision
computacional y procesamiento de imagenes no son apropiados para el analisis de textura en
tejido cerebral medido en imagenes T2 de RM.
Este trabajo tambien premitio al autor educarse en el area del analisis de imagenes biomedicas,
sus aplicaciones y las limitaciones actuales que existen en relacion a la anatomıa y sus patologıas.
A pesar de que los resultados que se obtuvieron son satisfactorios e interesantes, hay mucho
trabajo que queda por hacer. En general, es necesario validar la significancia estadıstica de los
resultados de clasificacion de craneos. Esto se puede lograr con una base de datos mas grande.
Tambien es necesario validar el algoritmo de seleccion de variables utilizando conjuntos de
entrenamiento y prueba de mayor tamano. Tambien es necesario crear metodos mas eficientes
para sintonizar los parametros de los algoritmos propuestos.
Respecto al analisis y la caracterizacion de tejido tumoral producido por glioma del tallo ce-
rebral, es necesario crear nuevos metodos para crear rasgos de textura que permitan calcular
clasificadores efectivos que generalicen apropiadamente. Los resultados que obtuvimos sugieren
que es necesario moverse en la direccion del analisis de la distribucion conjunta de la informacion
69
Capıtulo 5. Conclusiones 70
de intensidad de la imagen. Tambien es necesario crear bases de datos de imagenes de tejido
cerebral que permitan determinar en forma confiable la significancia estadıstica de los resultados
de clasificacion obtenidos con rasgos novedosos de textura.
Apendice A
Modelos de variables latentes para el
analisis de textos
El aprendizaje de texto y lenguage natural son los desafios de las areas de inteligencia artificial
y maquinas de aprendizaje. Algun progreso substancial en cualquiera de estas areas, tiene un
fuerte impacto en multiples aplicaciones. Uno de los principales problemas es el aprendizaje del
significado de las palabras y el uso de estas en distintos documentos como lo harıa el ser humano
[49]. La deteccion de similitudes a partir de una gran cantidad de contextos textuales permitirıa
construir una teorıa para entende la cognicion verbal humana [50].
Algunos de los terminos mas utilizados en el analisis de texto se definen a continuacion:
Palabra: Unidad basica de datos discretos. Elemento de un vocabulario o diccionario (W ).
Documento: Secuencia de P palabras que pertenecen al vocabulario y se denota por d =
{w1, . . . , wP }, en donde wp es la p−esima palabra en la secuencia.
Corpus: Coleccion de N documentos denotado por D = {d1, . . . , dN}.
Vocabulario: Conjunto deM palabras diferentes que se encuentran en el corpusW = {w1, . . . , wM}.
Topico: Es un concepto sobresaliente en un conjunto de documentos descritos por la frecuencia
de varios terminos. Un topico es una distribucion de probabilidades sobre un conjunto de
palabras.
Mexcla: Asociacion de multiples topicos a una publicacion. A cada topico ti se le asocia un
peso qi. El peso, describe la influencia (presencia) del topico ti en la publicacion.
71
Apendice A. Modelos de variables latentes 72
A.1. Modelos generativos
Los modelos generativos se basan en la idea de que los documentos se pueden representar
como una mezcla de topicos [51]. Estos modelos definen un proceso probabilıstico para generar
un nuevo documento, estableciendo distribuciones sobre los topicos y a su vez, cada topico
establece una distribucion sobre el vocabulario. Las palabras del nuevo documento, se eligen
aleatoriamente de las distribuciones de los topicos (Figura A.1). Distintas distribuciones sobre
los topicos, permiten generar documentos en distintos contextos [53].
a
b
c
d
e
f
a
b
c
d
e
f
a
b
c
d
e
f
1
3
2
Tópicos
Palabras
música
animales
familia
0.2
0.3
0.5
0.1
0.1
0.1
0.1
0.05
0.3
0.05
0.05
0.05
0.05
0.3
0.3
0.5
0.05
0.1
0.1
0.4
0.2
a : guitarra
b : casa
f : violín
c : hogar
d : gato
e : zoológico
Figura A.1: Distribucion de las palabras de un vocabulario en tres topicos. A los topicos seles asocia una distribucion.
Un modelo generativo usa variables aleatorias latentes para describir las palabras en un do-
cumento. Cuando se ajusta un modelo generativo, la meta es encontrar el mejor conjunto de
variables latentes que expliquen los datos observados (palabras en un documento).
Los modelos generativos utilizan una representacion de bolsa de palabras. La bolsa de palabras
contiene la frecuencia de las palabras del vocabulario en cada documento del corpus, ignorando
el orden en que aparecen las palabras. Cada documento en el corpus se representa como un
vector de dimension M . Los elementos del vector contienen las cuentas del numero de veces en
que las palabras del vocabulario aparecen en el documento. Los N vectores de los elementos en
Apendice A. Modelos de variables latentes 73
el corpus forman una matriz de dimension N ×M . A esta matriz, tambien se le conoce como
matriz de concurrencia.
El ejemplo de la Figura A.2, ilustra como los topicos se representan con un modelo generativo.
En este ejemplo, hay dos topicos literatura y matematicas, ambos representados como bolsas de
palabras. Las bolsas tienen diferentes distribuciones de palabras. El documento 1 y el documento
2 se generaron con los topicos 1 y 2 respectivamente, mientras que el documento 3 se construye
con la mezcla del topico 1 y el topico 2.
Figura A.2: Generacion de nuevos documentos.
La estructura del modelo no permite que haya exclusividad mutua, es decir, las palabras pueden
aparecer en mas de un topico. De esta manera, una palabra puede tener distintas interpretaciones
en contextos diferentes [54]. Por ejemplo, la palabra irracional (Figura A.2) puede interpretarse
diferente en un texto de literatura que en uno de matematicas.
Los modelos generativos no hacen algun tipo de suposiciones acerca del orden en que aparecen las
palabras en los documentos. El orden, proporciona informacion importante acerca del contenido,
sin embargo, se espera que la informacion contenida en las bolsas de palabras sea suficiente
para hacer inferencias sobre la informacion contenida en los documentos. En estos modelos,
Apendice A. Modelos de variables latentes 74
la informacion relevante es el numero de veces que las palabras aparecen en los documentos
(frecuencia).
A.2. Modelos de topicos probabilısticos
Hay una gran variedad de modelos de topicos probabilısticos que se utilizan para analizar el con-
tenido de los docuementos y el significado de las palabras. Todos estos modelos tienen la misma
idea fundamental (un documento es una mezcla de topicos) pero tienen suposiciones estadısti-
cas ligeramente diferentes. Modelos como el PLSA (Probabilistic Latent Semantic Analysis) y
el LDA (Latent Dirichlet Allocation) utilizan estadıstica Bayesiana para inferir los topicos en
un corpus.
Los modelos de topicos probabilısticos asocian los documentos del corpus con algun topico y cada
topico con algun significado de las palabras. La asociacion de un documento d a los topicos se
define formalmente como una distribucion de probabilidad multinomial p(Z|d) sobre la variable
aleatoria Z ∈ topicos que esta condicionada en el documento d. Si un topico z, tiene una alta
probabilidad p(Z = z|d), entonces, el topico se considera relevante en el documento. Entonces,
si un documento es interpretado como una mezcla de topicos, estas probabilidades son los pesos
de las mezcla [51]. Analogamente, la asociacion de un topico z para interpretar el significado de
palabras se define como una distribucion de probablidad multinomial p(W |z). La distribucion
condicional describe la probabilidad de cada palabra en el topico z.
Un modelo de topicos se compone de: a)un conjunto de topicos (Z), b)la distribucion de proba-
bilidad de los topicos (p(z)), c)la distribucion de probabilidad de los topicos dado el documento
(p(z|d)), d)la distribucion de probabilidad de las palabras dado el topico z (p(w|z)), e)la pro-
babilidad de que el topico j sea muestreado para obtener la i-esima palabra (p(zi = j)), y f)la
probabilidad de la palabra wi bajo el topico j (p(wi|zi = j)).
La distribucion de las palabras en un documento se calcula como [53]:
p(wi) =K∑k=1
p(wi|zi = k)p(zi = k) (A.1)
Donde K, es el numero de topicos. La probabilidad p(w|z = j), es la distribucion multinomial
sobre los topicos para el documento d.
Apendice A. Modelos de variables latentes 75
A.3. PLSA
El modelo PLSA (Probabilistic Latent Semantic Analysis), es una tecnica estadıstica para el
analisis de datos de concurrencia. El modelo PLSA tiene aplicaciones en recuperacion y filtrado
de informacion, procesos de lenguaje natural, aprendizaje de texto y areas relacionadas. Este
modelo tiene solidos fundamentos estadısticos, esta basado en el principio de verosimilitud. Esto
implica que tecnicas estadısticas puedan ser aplicadas para responder a preguntas referentes al
ajuste del modelo y el control de la complejidad. La representacion del modelo permite explicar
y distinguir los diferentes significados de una palabra en distintos contextos [56].
A.3.1. Aspectos del modelo
La esencia de PLSA es un modelo estadıstico conocido como “aspect mode”. Este modelo usa
variables latentes para generar datos de concurrencia asociados a una variable no observada
z ∈ Z = {z1, . . . , zK} con cada observacion, es decir, la ocurrencia de una palabra w ∈ W =
{w1, . . . , wM} en un documento d ∈ D = {d1, . . . , dN}. El modelo generativo se define como
sigue [54]:
Seleccionar un documento d con probabilidad p(d).
Elegir una clase latente z con probabilidad p(z|d).
Generar una palabra w con probabilidad p(w|z).
Como resultado se obtiene un par (d,w). El modelo grafico se muestra en la Figura A.3 y la
probabilidad conjunta asociada se presenta en la ecuacion A.2.
wzdp(d) p(z|d) p(w|z)
Figura A.3: Modelo generativo p(d,z,w).
p(d, z, w) = p(d)p(z|d)p(w|z). (A.2)
De lo anterior, se puede inferir la distribucion marginal sobre D ×W como sigue;
Apendice A. Modelos de variables latentes 76
p(d,w) =∑z
p(d, z, w)
=∑z
p(d)p(z|d)p(w|z)
= p(d)∑z
p(z|d)p(w|z). (A.3)
Con la ecuacion A.3 podemos calcular p(w|d);
p(w|d) =p(w, d)p(d)
=∑z
p(z|d)p(w|z). (A.4)
Se puede reescribir la ecuacion A.3 como;
p(d,w) = p(d)p(w|d). (A.5)
El aspect model es un modelo estadıstico de mezclas que se basa en dos suposiciones de inde-
pendencia:
1. Se asume que el par (d,w) se genera de forma independiente, en esencia, corresponde a lo
que se le conoce como bolsa de palabras.
2. Se asume independencia condicional con respecto a la clase latente z, ademas, w se genera
independientemente del documento d.
El numero de estados es menor al numero de documentos (K � N) por lo que, z actua como
un cuello de botella para predecir w condicionada en d. Note, que p(w|d) se obtiene de una
convinacion convexa de los factores p(w|z). Los documentos son caracterizados por una mezcla
especıfica de factores con pesos p(z|d). Los pesos de estas mezcla son frecuentemente modelados
y conceptualmente diferentes a las probabilidades a priori de los modelos de cumulos.
Una version equivalente del modelo A.5 se obtiene usando la regla de Bayes al invertir la pro-
babilidad condicional p(z|d) como sigue:
p(z|d) =p(d|z)p(z)p(d)
. (A.6)
Apendice A. Modelos de variables latentes 77
Por lo que p(d,w) se convierte en;
p(d,w) = p(d)∑z
p(z|d)p(w|z)
= p(d)∑z
p(d|z)p(z)p(d)
p(w|z)
=∑z
p(z)p(w|z)p(d|z). (A.7)
Con A.7 se obtiene un modelo perfectamente simetrico en ambas entidades para los documentos
y las palabras. Este modelo es la version parametrizada del modelo generativo descrito en la
ecuacion A.3 y el modelo grafico es el de la Figura A.4. La distribucion conjunta es define en la
ecuacion A.8.
d z w
p(z)
p(d|z) p(w|z)
Figura A.4: Modelo generativo p(d,z,w) parametrizado.
p(d, z, w) = p(z)p(d|z)p(w|d). (A.8)
Ahora, dado un documeto y una palabra, las posibles combinaciones son:
L =∏d
∏w
p(d,w)n(d,w). (A.9)
Donde n(d,w) corresponde a los elementos de la matriz de concurrencia. Con la ecuacion A.9
obtenemos la funcion de verosimilitud para el modelo de PLSA.
L = ln
(∏d
∏w
p(d,w)n(d,w)
)=∑d
∑w
ln p(d,w)n(d,w)
=∑d
∑w
n(d,w) ln p(d,w). (A.10)
Apendice A. Modelos de variables latentes 78
Haciendo uso de A.7 la expresion anterior se convierte en:
L =∑d
∑w
n(d,w) ln p(d,w)
=∑d
∑w
n(d,w) ln
[∑z
p(z)p(w|z)p(d|z)
]
=∑d
n(d)
{ln p(d) +
∑w
n(d,w)n(d)
ln∑z
p(w|z)p(z|d)
}. (A.11)
donde n(d) =∑wn(d,w) y n(d,w) es el numero de veces que ocurre la palabra w en el docu-
mento d. Se busca es estimar los valores de p(d), p(z|d) y p(w|z) que maximicen la funcion de
verosimilitud, sin embargo se deben cumplir las siguientes restricciones;
∑wp(w|z) =
∑wϕwz = 1.
∑zp(d|z) =
K∑k=1
φdz = 1.
∑d
p(d) =∑d
υs = 1.
Para simplificar la notacion, usamos ϕwz, φdz y υs para representar a p(d), p(z|d) y p(w|z)respectivamente. Lo que sigue es aplicar el algoritmo EM para el calculo de las probabilidades
maximizando la funcion de verosimilitud.
A.3.2. Calculo de las probabilidades con EM
Considere el vector de variables latentes Z como un vector binario que se define como sigue;
zdwk =
{1, si el par (d,w) fue generado por el topico k;
0, Otro caso.(A.12)
Entonces, Z es un vector de variables indicadoras. La probabilidad p(z) la podemos escribir de
la siguiente manera;
p(z) =K∏k=1
θzdwkk . (A.13)
Apendice A. Modelos de variables latentes 79
Sea, p(zdwk = 1) =K∏j=1
θzdwjj = θzdwkk = θk. Introduciendo las variables latentes dentro de A.11
obtenemos la funcion de verosimilitud completa.
Lc =∏d
∏w
∏z
p(d,w, z)n(d,w)
=∑d
∑w
n(d,w)∑z
ln p(d,w, z). (A.14)
Suponga que se conoce la variable latente que genera cada par (s, w), entonces se puede expresar
la funcion de verosimilitud completa sin la suma sobre todas las variables latentes, unicamente
con el termino que es distinto de cero. Para un valor particular de Z,
p(d,w|z) =p(d,w)p(z)
=p(z)p(d|z)p(w|z)
p(z)
= p(d|z)p(w|z)
=K∏k=1
(ϕwzφdz)zdwk . (A.15)
Con la ecuacion anterior podemos escribir A.8 como sigue,
p(d,w, z) = p(z)p(d,w|z)
=K∏k=1
(ϕwzφdzθk)zdwk . (A.16)
Ademas,
p(z|d,w) =p(d,w, z)p(d,w)
=
K∏k=1
(ϕwzφdzθk)zdwk
p(d,w). (A.17)
Apendice A. Modelos de variables latentes 80
Como (d,w) se conocen y p(d,w) es una constante en la ecuacion anterior para un valor particular
de z concluimos que,
p(zdwk = 1|d,w) =p(d,w|zdwk = 1)p(zdwk = 1)K∑j=1
p(d,w|zdwj = 1)p(zdwj = 1)
=[ϕwkφdkθk]zdwkK∑zdwj
[ϕwjφdjθj ]zdwj. (A.18)
Calculando el valor esperado de la expresion anterior,
E[zdwk]z|d,w =
∑zdwk
zdwk[ϕwkφdkθk]zdwk∑zdwj
[ϕwjφdjθj ]zdwj
=ϕwkφdkθk∑
zdwj
[ϕwjφdjθj ]
= γ(zdwk). (A.19)
Con la ecuacion A.19 podemos escribir el valor esperado del likelihood completo (ecuacion A.14).
E[Lc]z|d,w =∑d
∑w
n(d,w)K∑k=1
γ(zdwk) ln[ϕwkφdkθk]. (A.20)
Para optimizar A.14 necesesitamos considerar las restricciones. Para nuestro proposito se usaron
los multiplicadores de lagrange, obteniendo la siguiente expresion;
E[Lc]z|d,w +K∑k=1
τk
[∑w
ϕwk − 1
]+
K∑k=1
ρk
[∑d
φdk − 1
]+ α
[K∑k=1
θk − 1
]. (A.21)
Derivando e igualando a cero obtenemos las ecuaciones para el calculo de los parametros;
∑d
n(d,w)γ(zdwk)− ϕwkτk = 0. (A.22)
∑w
n(d,w)γ(zdwk)− φdkρk = 0. (A.23)
Apendice A. Modelos de variables latentes 81
∑d
∑w
n(d,w)γ(zdwk)− θkα = 0. (A.24)
De las ecuaciones anteriores podemos eliminar los multiplicadores de Lagrange usando constan-
tes de normalizacion. Realizando lo anterior, finalmente se obtenienen las ecuaciones que nos
permiten calcular los parametros del modelo PLSA como sigue:
ϕwk =
∑d
n(d,w)γ(zdwk)
τk
=
∑d
n(d,w)γ(zdwk)∑d
∑wn(d,w)γ(zdwk)
. (A.25)
φdk =
∑wn(d,w)γ(zdwk)
ρk
=
∑wn(d,w)γ(zdwk)∑
d
∑wn(d,w)γ(zdwk)
. (A.26)
θk =
∑d
∑wn(d,w)γ(zdwk)
α
=
∑d
∑wn(d,w)γ(zdwk)∑d
∑wn(d,w)
. (A.27)
A.4. LDA
LDA (Latent Dirichlet Allocation) es un modelo generativo probabilıstico que puede usarse para
estimar las propiedades de observaciones multinomiales por aprendizaje no supervizado. En
modelado de texto, LDA es un metodo para el analisis semantico latente, la idea de este analisis
es encontrar estructuras latentes de topicos o conceptos en un conjunto de textos que capture
el significado del texto. El termino analisis semantico latente fue introducido por Deerwester et
al. [57] quien demostro empıricamente que las estructuras en la ocurrencia de los terminos de
un vocabulario en los documentos pueden ser usados para recuperar la estructura de topicos
latentes con el uso de conocimiento previo. Los parametros a estimar son φ y θ, que ındican que
palabras son importantes para un topico y que topicos son importantes para un documento.
Apendice A. Modelos de variables latentes 82
A continuacion presentamos una breve introduccion de la distribucion de Dirichlet. Para mas de-
talle consultar [58], donde se encuentra una descripcion detallada de la distribucion de Dirichlet,
ası como la estimacion de los parametros.
A.4.1. Distribucion de Dirichlet
La distribucion de Dirichlet es comunmente usada en la inferencia Bayesiana para asignar pro-
babilidades a un conjunto de datos. Una distribucion de Dirichlet T-dimensional esta definida
como una distribicion sobre multinomiales las cuales son T-tuplas p = (p1, . . . , pT ) que su-
man la unidad. El espacio de las multinomiales (T-dimensional) es por definicion un simplex,
ası que la distribucion de Dirichlet puede verse como una distribucion sobre un simplex [58].
Algebraicamente la distribucion esta dada por;
Dir(α1, . . . , αT ) =1Z
∏k
pαk−1k . (A.28)
Donde, Z =
TQk=1
Γ(αk)
Γ
TPk=1
αk
! es un factor de normalizacion. Los K parametros αk se asumen positivos.
Esta distribucion es util para asignar probabilidades a priori sobre los pesos del modelo de
mezclas y para encontrar el numero de cumulos optimo sobre los datos.
Una parametrizacion simple de Dirichlet esta dada por s =T∑k=1
αk y T =(α1s , . . . ,
αTs
). El
vector T suma la unidad, de ahı, que es un punto en el simplex, s es comunmente referida como
parametro de parametrizacion o concentracion de Dirichlet ya que controla la concentracion de
la distribucion al rededor de la media.
Dado un conjunto de datos observados de una multinomial D = {p1, . . . ,pN}, los parametros
de la distribucion de Dirichlet pueden ser estimados de la funcion de verosimilitud de los datos
como:
F (α) = log p(D|α)
= log∏i
p(pi|α)
= log∏i
Γ (∑
k αk)∏k Γ(αk)
∏k
pαk−1ik
= N
(log Γ
(∑k
αk
)−∑k
logΓ(αk) +∑k
(αk − 1) log pk
)(A.29)
Apendice A. Modelos de variables latentes 83
donde log pk = 1N
∑i log pik es el estadıstico suficiente observado. Se hace uso del log-verosimilitud
por la convexidad y de esta manera garantizar un α optimo. Lo que resta es maximizar la funcion
objetivo con metodos como gradiente descendente , Newton-Raphson, entre otros.
Regresando al analisis de texto, cada hiperparametro αj se interpreta como una observacion a
priori que cuenta el numero de veces en que el topico j se muestrea para generar un documento.
Usando la simetrıa de la distribucion de dirichlet α = α1, . . . , αT . Si se coloca una distribucion
de Dirichlet sobre la distribucion θ, el resultado es una distribucion de topicos suave, con la suma
de estos determinada por el parametro α. La figura A.5 ilustra la distribucion de Dirichlet para
3 topicos, sobre un simplex de 2 dimensiones. El simplex es un buen sistema de referencia para
representar todas las posibles distribuciones de probabiblidad para algun punto p = p(p1, . . . , pT )
en el simplex, donde∑jpj = 1.
Figura A.5: Simetrıa de la distribucion de Drichlet para 3 topicos en un simplex de dimension2. A la izquierda con α = 4 y a la derecha con α = 2. Las zonas mas oscuras ındican mayor
probabilidad.
La probabilidad a priori en la distribucion de los topicos puede ser interpretado como fuerzas
en la combinacion de los topicos, regulan la concentracion de la distribucion. Con α > 1 los
topicos se van al centro (simplex de la izquierda de la figura A.5). Para α < 1 la distribucion se
va a las esquinas (simplex de la derecha de la figura A.5).
Griffiths y Steyvers, exploran una variante del modelo introduciendo una distribucion de Dirichlet(β)
para φ. El parametro β suaviza la distribucion de las palabras en cada topico, con la suma pon-
derada determinada por β. Una buena eleccion de los valores de los hiperparametros α y β
depende del numero de topicos y de la dimensionalidad del vocabulario. Este modelo es referido
como LDA, donde se asignan probabilidades a priori a las palabras y a los documentos.
A.4.2. Modelo grafico
En la figura A.6 se muestra el modelo grafico de LDA. El doble cırculo ındica las variables
observadas, mientras que las que tienen solo un cırculo son las variables latentes (no obser-
vadas). Las variables φ, θ y z son 3 conjuntos de variables latentes que se desean inferir. Los
Apendice A. Modelos de variables latentes 84
hiperparametros α y β son restricciones del modelo. Las flechas ındican independencia condi-
cional entre las variables y las cajas se refieren a un proceso repetitivo donde la variable en la
parte inferior derecha controla el numero de veces que se realizara el muestreo. Por ejemplo,
la caja 1 ilustra el muestreo repetitivo de los topicos y las palabras hasta obtener Nd palabras
para generar el documento d, la caja 3 se refiere al muestreo repetitivo de la distribucion de las
palabras para cada topico z hasta que se generen T topicos.
β
α1
3
z
w
θ(d)
φ(z)
NdD
T
2
Figura A.6: Representacion grafica del modelo LDA. El doble cırculo representa la variableobservada, un cırculo las variables no observadas (latentes). Las cajas simbolizan un procesorepetitivo. Las variables a estimar son φ, θ y z mientras que α y β son las restricciones del
modelo.
A.4.3. Interpretacion geometrica
Con un vocabulario constituido por W palabras puede construirse un espacio de dimension
W , donde cada eje representa la probabilidad de observar una palabra particular. El simplex
de dimension (W − 1) representa todas las distribuciones de probabilidad posibles sobre las
palabras. Cada documento en el corpus puede representarse como un punto en el simplex.
Cada documento generado por el modelo es una combinacion convexa de T topicos que no
solo representa las distribuciones de las palabras generadas por el modelo como un punto en el
simplex de dimension W − 1, si no como puntos en el simplex de dimension (T − 1) suavizado
por los topicos. Las probabilidades de Dirichlet en las distribuciones de los topicos y las palabras
pueden interpretarse como fuerzas en la localizacion del topico.
Cuando el numero de topicos es mucho mas pequeno que W (T << W ), los topicos estan en una
baja dimensionalidad, en un “subsimplex”, y la proyeccion de cada documento en el subsimplex
de baja dimensionalidad puede verse como una reduccion de la dimensionalidad del problema.
Apendice A. Modelos de variables latentes 85
En la figura A.7, el area sombreada es la region de un simplex en dos dimensiones que repre-
sentan todas las distribuciones de probabilidad de 3 palabras. Por ejemplo; con 2 topicos, cada
documento generado se encuentra a lo largo de la lınea entre los dos topicos.
Figura A.7: Interpretacion geometrica del modelo de topicos.
A.4.4. Extraccion de topicos
Las variables de interes en el modelo son las distribuciones de φ y θ para cada documento. Si
bien, el modelo de la figura A.6 es aun relativamente simple, la inferencia exacta es generalmente
intratable. En vez de estimar la distribucion de φ (topicos-palabras) y θ (topicos) para cada
documento, se estima la distribucion sobre z, dadas las palabras observadas w y marginalizando
sobre φ y θ. Se describira un algoritmo que utiliza el muestreo de Gibbs para extraer el conjunto
de topicos de un corpus.
A.4.5. Muestreo de Gibbs
El muestreo de Gibbs es un caso especial de los metodos de Markov-Chain Monte Carlo (MCMC)
y es un algoritmo relativamente simple para aproximar modelos de alta dimensionalidad como
el LDA [28]. El muestreo de Gibbs consiste en asignar las palabras del vocabulario a los topicos
y estimar la probabilidad de estas asignaciones, condicionando el topico asignado al resto de las
palabras. De esta distribucion condicional, un topico es muestreado y se almacena como nuevo
topico asignado a la palabra. Esta distribucion condicional se escribe como;
p(zi = j|z−i, wi, di). (A.30)
Apendice A. Modelos de variables latentes 86
donde zi = j representa al topico asigando a la palabra i para el topico j, z−j se refiere al topico
asignado a todas las otras palabras. Griffiths y Steyvers muestran que esta probabilidad puede
calcularse como;
p(zi = j|z−i, wi, di, ·) ∝CWTwij
+ β
W∑w=1
CWTwj +Wβ
CDTdij + α
T∑t=1
CDTdit + Tα
. (A.31)
donde CWT y CDT son matrices de cuentas de dimension W × T y D × T respectivamente,
ademas, “·” representa a la informacion observada (palabras y documentos con ındices w−i, d−iy los hiperparametros α y β). CWT
wj contiene el numero de veces que la palabra w se asigna al
topico j, no incluyendo el estado actual i, mientras que CDTdj contiene el numero de veces que
el topico j fue usado para determinar alguna palabra en el documento d, no incluye el estado
actual i. Note que la ecuacion A.31 no esta normalizada para lo cual se debe dividir por la suma
sobre todos los topicos y asi obtener la probabilidad de asignar una palabra al topico j. La parte
izquierda de la ecuacion A.31 es la probabilidad de una plabra w bajo el topico j mientras que
la parte derecha representa la probabilidad del topico j en la distribucion del documento d. Si
el topico j ha sido usado varias veces en un documento, este incrementa la probabilidad de que
alguna palabra del documento sea asignada al topico j.
El muestreo de Gibbs comienza asignando cada palabra a un topico aleatoriamente [1, . . . , T ].
Para cada palabra las matrices CWT y CDT se decrementan por la entrada del topico actual
asignado, entonces un nuevo topico es muestreado de la distribucion de la ecuacion A.31 y las
matrices de cuentas CWT y CDT se incrementan con el nuevo topico asignado. Cada muestreo
de Gibbs esta compuesto por un conjunto de topicos. En el estado inicial del proceso (perıodo
de quemado), el muestreo de Gibbs tiene que ser descartado, despues del perıodo de quemado, el
muestreo de Gibbs se comienza a aproximar la distribucion objetivo (es decir, la distribucion a
posteriori de los topicos). En este punto, para dar un conjunto representativo de la distribucion
aproximada, un numero de muestras de Gibbs es almacenado en intervalos igualmente espaciados
para prevenir correlaciones entre las muestras.
A.4.6. Estimando φ y θ
El muestreo da estimaciones de z para cada palabra, sin embargo, para varias aplicaciones del
modelo se requiere estimar φ′ y θ′ de las distribuciones “palabra-topico” y “topico-documento”,
esto se puede calcular como sigue;
Apendice A. Modelos de variables latentes 87
φ′(j)i =
CWTij + β
W∑k=1
CWTkj +Wβ
.
θ′(d)j =
CDTdj + α
T∑k=1
CDTdk + Tα
. (A.32)
Estas estimaciones corresponden a la distribucion estimada resultado de muestrear una nueva
palabra i del topico j y muestrear una nueva palabra en un documento d del topico j, estas
cantidades estan condicionadas a un z particular. Para mas detalle de la estimacion de los
parametros contultar [28].
No hay un orden a priori de los topicos lo cual hace que los topicos sean identificables entre
o incluso en el proceso de simulacion. Teoricamente, el topico j en el muestreo de Gibbs no
esta restringido a ser similar a el topico j en el subsecuente muestreo. Cuando los topicos son
usados, los topicos se promedia sobre los diferentes muestreos de Gibbs. Modelando el promedio,
es probable mejorar los resultados por que son un resultado de promediar en multiples soluciones
locales de la distribucion.
En algunas aplicaciones es deseable determinar el orden de los topicos para interpretar su
significado individualmente, en esta situacion, es importante que los topicos sean estables. La
eleccion del numero de topicos puede afectar la interpretacion de los resultados. Una solucion
con muchos topicos generalmente resulta en una interpretacion muy amplia, con pocos topicos
los resultados no son interpretables.
A.5. Ejemplo de analisis de texto usando un modelo de topicos
probabilısticos
En esta seccion, se da un ejemplo de analisis de texto para ilustrar el uso del modelo LDA con
datos reales. Se tiene una coleccion de 8 documentos, a este conjunto lo denotaremos como:
D = { UnivJunio, UnivJulio, UnivAgosto, UnivSeptiembre, JornJunio, JornJulio, JornAgosto,
JornSeptiembre }
Cada documento contiene los encabezados de dos periodicos nacionales durante un mes. Los
periodicos considerados son El Universal y La Jornada. Los datos se recolectaron diariamente
de los encabezados principales en los meses de junio, julio, agosto y septiembre del ano 2006.
Apendice A. Modelos de variables latentes 88
Por ejemplo, los encabezados de los primeros 5 dıas del mes de julio del 2006 de los periodicos
La Jornada y El Universal se muestran en las tablas A.2 y A.1. El proposito es determinar los
topicos presentes en los encabezados de los periodicos de junio a septiembre del 2006.
Fecha Principales encabezados del periodico El Universal
1 de julio del 2006 en las entranas del IFE.GASTARON EN ’SPOTS’ 1.4 BILLONES.
2 de julio del 2006 Espera IFE afluencia de 60 % del electorado.3 de julio del 2006 Pelean voto por voto.
El Tribunal definira al ganador.4 de julio del 2006 Obligan gobernadores a Madrazo a dejar la pelea.
Del computo de actas saldra el nombre del ganador.5 de julio del 2006 Cae ventaja de Felipe sobre AMLO a la mitad: 0.6 %.
Elba: Madrazo nos llevo al fracaso; dividio al partido.“LEGITIMAR EL PROCESO NO DEPENDE DE CAPRICHOS”.
Cuadro A.1: Principales encabezados de los primeros 5 dıas del mes de Julio del periodico ElUniversal, que pertenecen al documento UnivJulio.
Fecha Principales encabezados del periodico La Jornada
1 de julio del 2006 Hackean pagina web de AMLO e insertan falso llamado a la “resistencia”.Ugalde pide a los aspirantes no “autoproclamarse como ganadores”.
2 de julio del 2006 Hoy, cambio o continuidad.3 de julio del 2006 El IFE, rebasado; aplaza el veredicto.
Paron del PRI al instituto; se declara “factor de estabilidad”.Ugalde: el conteo rapido no permite definir un ganador.“Segun actas, tenemos ventaja de 500 mil votos”, dice el perredista.Festeja el panista sus cifras: “he ido arriba desde el primer momento”.
4 de julio del 2006 Lopez Obrador: “perdidos”, tres millones de votos.Tacito aval de Roberto Madrazo al triunfo de Felipe Calderon.Presiono el PAN al IFE para que divulgara datos de su ventaja.Resaca electoral.
5 de julio del 2006 Actas en el basurero de Xochiaca.Reacomoda el IFE resultados.Magica formula del instituto para introducir datos “inconsistentes”.
Cuadro A.2: Principales encabezados de los primeros 5 dıas del mes de Julio del periodico LaJornada, que pertenecen al documento JornJulio.
El analisis comienza con la recoleccion de palabras en uso (todas las palabras presentes en el
conjunto D), luego se cuentan que palabras se usan en cada documento. Partiendo de esto se
establece una frecuencia de palabras por documento. Los modelos de variables latentes como
el LDA extraen el significado de las palabras sin considerar las palabras usadas ocasionalmente
en los documentos (preposiciones, conjunciones, etc.) y se enfoca en lo que es comun en los
documentos [50]. El proceso anterior es lo que se conoce como construccion de la matriz de
concurrencia, para el presente ejemplo la dimension del vocabulario es de 1444 palabras y 8
documentos.
Apendice A. Modelos de variables latentes 89
Se desea: Estimar la distribucion del parametro θ que mejor explique los encabezados de los
periodicos y calcular la probabilidad de un nuevo encabezado dados los encabezados anteriores.
Para estimar los parametros del modelo LDA se pueden utilizar aproximacion variacional, apro-
ximacion de Laplace y Cadenas de Marcov [53], en este ejemplo, para estimar los valores de los
parametros se usa un muestreo de Gibbs que es un metodo particular de Cadenas de Markov. En
las graficas de la Figura A.8 se observa la estimacion de α y β variando sus valores en el intervalo
de [1, 100] en incrementos de 10 y de [0.1, 0.2, 0.4, 0.6, 0.8, 1, 10, 20, 40, 60, 80, 100, 200, 400, 600]
respectivamente.
2 4 6 8 10 12 14−2.12
−2.11
−2.1
−2.09
−2.08
−2.07
−2.06
−2.05
−2.04x 10
4
K
log
p(x;
K)
Alpha
2 4 6 8 10 12 14−2.2
−2.15
−2.1
−2.05
−2
−1.95
−1.9x 10
4
K
log
p(x;
K)
Variando Beta
Figura A.8: En la primera grafica se estima el valor de α con β = 1, mientras que en lasegunda, se estima β con α = 50.
Con α y β de 50 y 1 respectivamente se estima el numero de topicos (T ) presentes en la
distribucion de los datos (matriz de concurrencia, ver figura A.9). Para construir la matriz de
concurrencia , previamente se genera el Vocabulario o Diccionario de palabras, que son las
palabras que estan contenidas en todos los documentos. Cabe aclarar que no se consideran
las preposiciones, adverbios, conjunciones, articulos y los pronombres. Algunos elementos del
diccionario son:
Diccionario: EVASION, FISCAL, CAMPA, GOBERNABILIDAD, DF, METAS, ECONOMI-
CAS, CANDIDATOS, SUSTENTO, EXPERTOS, PROPONEN, TRUCOS, DEBATE,
CAMPANAS, ULTIMO, JALON, AJUSTAN, TACTICAS, DARAN, PRIORIDAD, IDEAS,
DESCARTAN, GOLPES, OPORTUNIDADES, ALIMENTA, PADRON, ACCION, . . .
Usando T = 2, en la tabla A.3 se muestran las primeras 15 palabras y su respectiva probabilidad
segun el topico en el que se encuentren, a los topicos los identificamos como Impugnacion y
Elecciones. Mientras que en la tabla A.4 se muestran los resultados con T = 3 topicos que
etiquetamos como Impugnacion, Elecciones y Campana.
Apendice A. Modelos de variables latentes 90
Matriz de concurrencia
Palabras
Doc
umen
tos Universal
Jun
Jul
Agost
Sep
JornadaJun
Jul
Agost
Sep200 400 600 800 1000 1200 1400
1
2
3
4
5
6
7
8
2 4 6 8 10 12 14−2.11
−2.1
−2.09
−2.08
−2.07
−2.06
−2.05x 10
4
K
log
p(x;
K)
alpha:50 beta:1
Figura A.9: A la izquierda se presenta la matriz de concurrencia que es la frecuencia de laspalabras del vocabulario en los documentos, mientras que a la derecha, se estima el numero de
topicos con α = 50 y β = 1.
Impugnacion 0.46313 Elecciones 0.53687LOPEZ 0.00995 CALDERON 0.02353IFE 0.00774 AMLO 0.02289AMLO 0.00737 IFE 0.01049PRD 0.00700 FELIPE 0.00890FOX 0.00479 OBRADOR 0.00890PAN 0.00442 VOTO 0.00795CRISIS 0.00405 COALICION 0.00795MADRAZO 0.00332 ELECTORAL 0.00731VOTO 0.00332 ES 0.00700AN 0.00332 TEPJF 0.00604PAIS 0.00332 PRESIDENTE 0.00604TEPJF 0.00332 PAN 0.00572RECUENTO 0.00332 TRIBUNAL 0.00509CASILLAS 0.00332 PRI 0.00509TRIBUNAL 0.00295 PRD 0.00477
Cuadro A.3: Se muestran las 15 palabras con mayor probabilidad en cada topico. Las proba-bilidades de los topicos se encuentran en el primer renglon en la columna 2 y 4.
A.6. Conclusiones
Los modelos de variables latentes en el analisis de texto permiten extraer el sentido de los textos
y tienen gran potencial para hacer importantes contribuciones al analisis estadıstico de un gran
conjunto de documentos. Estos modelos hacen suposiciones explicitas acerca de los procesos
causales responsables de genera un documento, ademas permiten usar sofisticados metodos
estadısticos para identificar estructuras latentes en un conjunto de palabras. Aunque aun existen
problemas con el orden de las palabras, la sintaxis, las expresiones logicas, la cuantificacion, las
negaciones, las relaciones retoricas, el reconocimiento de los antonimos y otros componentes
Apendice A. Modelos de variables latentes 91
Fraude 0.31457 Impugnacion 0.30731 Campana 0.37812IFE 0.00784 LOPEZ 0.01203 AMLO 0.02572PRD 0.00740 IFE 0.00802 CALDERON 0.02535PAN 0.00522 AMLO 0.00713 OBRADOR 0.00942TRIBUNAL 0.00435 RESISTENCIA 0.00579 COALICION 0.00869CRISIS 0.00392 TEPJF 0.00535 VOTO 0.00833AN 0.00392 FELIPE 0.00401 ELECTORAL 0.00797RECUENTO 0.00392 LLAMA 0.00357 ES 0.00761FOX 0.00392 NACIONAL 0.00312 FELIPE 0.00724CASILLAS 0.00392 GOBIERNO 0.00312 IFE 0.00688PAIS 0.00348 CIVIL 0.00312 PAN 0.00652DICE 0.00348 MEXICO 0.00312 PRD 0.00543FELIPE 0.00305 UGALDE 0.00267 TEPJF 0.00543NIEGA 0.00305 VOTO 0.00267 PRESIDENTE 0.00543AMLO 0.00261 TRIBUNAL 0.00267 PRI 0.00507VOTO 0.00261 PIDE 0.00267 MIL 0.00435
Cuadro A.4: Probabilidad de las 15 primeras palabras mas frecuentes en los tres topicos.
IFE
AMLO
PRD
FOX
PAN
CRISIS
MADRAZO
VOTO
AN
LÓPEZ CALDERÓN
AMLO
IFE
FELIPE
OBRADOR
VOTO
COALICIÓN
ELECTORAL
ES
TEPJF
" Impugnación " " Campaña "
" Campaña "" Impugnación "" Fraude "
IFE
TRIBUNAL
PAN
PRD
CRISIS
AN
RECUENTO
FOX
CASILLAS
PAÍS
LÓPEZ
IFE
AMLO
RESISTENCIA
TEPJF
FELIPE
LLAMA
NACIONAL
GOBIERNO
CIVIL
AMLO
CALDERÓN
OBRADOR
COALICIÓN
VOTO
ELECTORAL
ES
FELIPE
IFE
PAN
Figura A.10: Las 10 palabras mas frecuentes con T = 2 y T = 3.
analiticos de la comprension. Por estas razones, estos modelos pierden capacidad explicativa
[50].
Apendice B
SIFT
B.1. Introduccion
Los SIFT (Scale Invariant Feature Transform) son caracterısticas en una imagen que tienen
muchas propiedades y las hacen apropiadas para el registro de imagenes de un objeto o escena. Se
puede entender como una generalizacion de la extraccion de bordes/esquinas. Las caracterısticas
son invariantes a escala, rotacion y parcialmente invariantes a cambios de iluminacion. Las
principales etapas del calculo de las caracterısticas se describen a continuacion:
1. Deteccion de puntos en el espacio de escalas: Se hace una busqueda sobre todas
las escalas y posiciones de la imagen. La implementacion eficiente se realiza usando una
funcion DoG (diferencia de Gaussianas) para identificar puntos de interes potenciales que
sean invariantes a escala y orientacion.
2. Localizacion de puntos : A cada posicion candidata se ajusta un modelo para determi-
nar la ubicacion y escala, los puntos se seleccionan con base en una medida de estabilidad.
3. Asignacion de una Orientacion : Se asocia a cada punto una o mas orientaciones
basada en la direccion del gradiente de la imagen local.
4. Generacion de un descriptor : Se calcula el gradiente de la imagen local en la escala
seleccionada y en la region alrededor de cada punto.
Esta aproximacion genera diversas caracterısticas y la calidad de estas es particularmente impor-
tante para el reconocimiento de objetos. Para el registro y reconocimiento de imagenes, primero
se extraen los SIFTs de un conjunto de imagenes de referencia y estos son almacenados en una
base de datos. Para una nueva imagen se compara cada una de sus caracterısticas con las que se
encuentran en la base de datos, las caracterısticas candidatas se eligen con base en la distancia
euclidiana de los vectores de caracterısticas [45].
92
Apendice B. SIFT 93
B.2. Deteccion de puntos de interes en el espacio de escalas
El primer paso en la deteccion de puntos es identificar posiciones y escalas que se repiten en
diferentes vistas del mismo objeto. La deteccion de posiciones invariantes al cambio de escala
puede lograrse buscando caracterısticas estables a traves de todas las posibles escalas usando
una funcion continua de escala conocida como espacio escalar.
El espacio escalar de una imagen se define como una funcion L(x, y, σ) que proviene de la
convolucion de una Gaussiana G(x, y, σ) con una imagen I(x, y):
L(x, y, σ) = G(x, y, σ) ∗ I(x, y) (B.1)
donde ∗ es el operador de convolucion en (x, y) y G(x, y, σ) = 12πσ2 e
−(x2+yy)
2σ2 . El espacio de
escala de la LoG es un suavizado constante de la imagen. Para la deteccion eficiente de puntos
estables en la escala espacial Lowe propone usar un punto extremo en la funcion de diferencia de
gaussianas convolucionada con la imagen, D(x, y, σ) la cual puede ser calculada de la diferencia
de escalas cercanas separadas por un factor multiplicativo k:
D(x, y, σ) = (G(x, y, kσ)−G(x, y, σ)) ∗ I(x, y)
= L(x, y, kσ)− L(x, y, σ) (B.2)
DoG aproxima al Laplaciano de Gaussianas LoG σ2∇2G. Lindeberg (1994) mostro que la nor-
malizacion del Laplaciano con el factor σ2 se requiere para la invarancia a la escala y Mikolajczyk
(2002) encontro que el maximo y mınimo de σ2∇2G producen caracterısticas mas estables.
Las escalas del filtro DoG a diferentes escalas difieren por un factor constante incorporando el
factor de normalizacion σ2 requerido por el Laplaciano.
Una eficiente construccion de D(x, y, σ) se observa en la figura B.1. La imagen inicial es incre-
mentalmente convolucionada con Gaussianas para producir imagenes separadas por un factor
constante k en el espacio de escala (columna de la izquierda). Estas imagenes se dividen en
s octavas, por lo que k = 21/s. Se deben producir al menos s + 3 imagenes por octava. Las
imagenes adyacentes son substraıdas para producir la diferencia de Gaussianas (columna de la
derecha). Una vez completado la octava, este tiene que ser procesado, se hace un re muestreo
de la imagen Gaussiana que tiene valor inicial σ tomando cada segundo pixel en cada renglon
y columna.
Apendice B. SIFT 94
Figura B.1: En cada octava del espacio escalar, la imagen inicial es repetidamente convolucio-nada con Gaussianas para generar un conjunto de imagenes espaciadas, como se observa en laparte izquierda. Imagenes de Gaussianas adyacentes son substraıdas para producir la diferenciade Gaussianas como se ve en la parte derecha. Despues para cada octava, la imagen Gaussiana
es muestreada por un factor de 2 y el proceso se repite.
En el ejemplo de la Figura B.1, serıa s = 2 y las 5 imagenes de cada octava (resultantes
de la convolucion con Gaussianas) se obtienen con σ0, σ1 = 21/2σ0, σ2 = 21/221/2σ0 = 2σ0,
σ3 = 21/221/221/2σ0 = 23/2σ0, σ4 = 21/221/221/221/2σ0 = 4σ0. La imagen σ2 de cada octava se
submuestrea (pixel si, pixel no) a la mitad y ası pasar a la siguiente.
B.3. Deteccion de extremos
Para detectar los maximos y minimos de D(x, y, σ), cada punto muestreado es comparado con
sus 8 vecinos de la imagen actual con los 9 vecinos de la imagen superior y los 9 vecinos de
la imagen inferior (Figura B.2). El punto es seleccionado solo si es un maximo local (mayor a
todos los pixeles vecinos) o un minimo local (menor a todos los pixeles vecinos). El muestreo
tiene bajo coste computacional debido a que los puntos muestreados son eliminados despues del
primer chequeo.
Una cuestion importante, es determinar la frecuencia del muestreo de la imagen y el dominio de
la escala que se necesita para detectar extremos. Los extremos que estan cercanos son inestables
a pequenas perturbaciones en la imagen.
En los experimentos realizados por Lowe muestran que el espacio de escala de la funcion de
diferencia de Gaussianas tiene un gran numero de puntos extremos y puede ser muy caro de-
tectarlos a todos ellos. Afortunadamente se pueden detectar los mas estables en un muestreo de
las escalas.
Apendice B. SIFT 95
Figura B.2: Calculo del maximo y el minimo de D(x, y, σ) comparando el pixel muestreadocon sus 9 vecinos.
B.4. Estimacion precisa de la localizacion
Una vez que los puntos son calculados comparando el pixel con sus vecinos, el siguiente paso
es un ajuste detallado de los datos locales para determinar su localizacion, escala y el radio
de las curvas principales. A cada maximo y minimo se ajusta una funcion cuadratica 3D. Esta
expresion usa la expansion de Taylor de la funcion escalar espacial D(x, y, σ):
D(x) = D +∂DT
∂xx+
12xT∂2D
∂x2x. (B.3)
Donde D y su derivada es evaluada en el punto muestreado y x = (x, y, σ)T es la posicion de
este punto. La localizacion del extremo x es determinado por la derivada de esta funcion con
respecto a x e igualando a 0:
x = −∂2D−1
∂x2
∂D
∂x. (B.4)
El Hessiano y la derivada de D se aproxima calculando la diferencia de los vecinos de los puntos
muestreados, obteniendo un sistema lineal de 3× 3 que se puede resolver con un bajo costo. El
valor de D en dicho extremo, se calcula sustituyendo la ecuacion B.4 en B.3.
D(x) = D +12∂DT
∂xx. (B.5)
B.5. Asignacion de orientacion
Para cada imagen muestreada L(x, y), la escala, la magnitud del gradiente m(x, y) y la orien-
tacion θ(x, y) es calculada usando la diferencia de los pixeles:
Apendice B. SIFT 96
m(x, y) =√
(L(x+ 1, y)− L(x− 1, y))2 + (L(x, y + 1)− L(x, y − 1))2. (B.6)
θ(x, y) = tan−1
[L(x, y + 1)− L(x, y − 1)L(x+ 1, y)− L(x− 1, y)
.
](B.7)
Un histograma de orientaciones se realiza con la orientacion de los gradientes de los puntos
muestreados en una region al rededor del punto (histograma de 36 posiciones, una por cada
10◦). Cada muestra agregada al histograma es pesada por la magnitud del gradiente y por una
ventana circular pesado gaussiano. Los picos en el histograma de orientaciones corresponden a
las direcciones dominantes de los gradientes locales. El pico mas alto del histograma se detecta y
entonces, algun otro pico local que esta dentro del 80 % del pico mas alto es usado para crear un
punto y una orientacion. Para multiples picos de magnitud similar, estos seran puntos creados
en la misma localidad y escala pero, con diferentes orientaciones. Cerca del 15 % de los puntos
se les asignan multiples orientaciones y estos contribuyen significativamente a la estabilidad de
las caracterısticas.
B.6. Representacion de los descriptores
Primero, la magnitud del gradiente de la imagen y las orientaciones son muestreadas alrededor
de la posicion del punto, se usa la escala del punto para seleccionar el nivel de la Gaussianna
para la imagen. Las coordenadas del descriptor y las orientaciones del gradiente son rotadas a la
orientacion del punto consiguiendo ası, la invarianza a la orientacion. Por eficiencia, el gradiente
es calculado en todos los niveles de la piramide. Lo anterior se ilustra en la parte izquierda de
la Figura B.3.
Una funcion Gaussiana de pesos con σ igual a la mitad del ancho de la ventana del descriptor
se usa para asignar un peso a la magnitud de cada punto muestreado. Esto se ilustra con una
ventana circular (imagen izquierda de la figura B.3). El proposito de la ventana Gaussiana es
dar tolerancia a cambios repentinos en el descriptor con pequenas varianzas en la posicion de la
ventana.
El descriptor se muestra en la parte derecha de la Figura B.3. Este permite cambios significativos
en las posiciones del gradiente creando histogramas de orientacion sobre regiones de 4 × 4. Es
importante considerara todos los efectos en los cuales el descriptor tenga cambios bruscos, de
ahı que se usa una interpolacion trilineal para distribuir los valores de cada gradiente entre bins
adyacentes de los histogramas.
Apendice B. SIFT 97
Figura B.3: Primero se calculan las magnitudes del gradiente y la orientacion de cada imagenmuestreada en el punto en la region alrededor de su posicion (imagen de la izquierda). Estas sonpesadas por una funcion Gaussiana. Las muestras son acumuladas en histogramas de orientacionresumiendo el contenido en ventanas de 4 × 4 subregiones (figura de la derecha), donde cada
flecha corresponde a la suma de las magnitudes del gradiente.
El descriptor esta formado por un vector que contiene los valores de todas los histogramas
de orientacion de entrada (flechas de la figura derecha de B.3). La figura muestra un arreglo
de 2 × 2. Los mejores resultados de los experimentos realizados por Lowe, se obtuvieron con
arreglos de 4× 4 con 8 bins de orientaciones. De ahı que se obtienen descriptores de dimension
4× 4× 8 = 128.
Finalmente, a los vectores de caracterısticas se les realiza una modificacion para que estos re-
duzcan los efectos a cambios de contraste e iluminacion. Primero, los descriptores se normalizan
para que su longitud sea uno, lo anterior para obtener invarianza a los cambios de contraste.
Posteriormente se vuelven a normalizar para obtener cierta invarianza a cambios no lineales de
iluminacion. Lowe, porpone que los valores del vector de caracterısticas no sean mayores a 0.2
para despues normalizar a la unidad.
Apendice C
Resultados de Craneosinostosis
En este apendice se presentan resultados adicionales a los mostrados en el capıtulo 3. El numero
de topicos K considerados son: 8, 9 y 10 con tasas de reduccion de 75 : 1, 66 : 1 y 60 : 1
respectivamente. Los parametros para generar los resultados presentados en este apendice son
los mismos que se presentaron en el Cuadro 3.11.
C.1. Clasificacion de formas craneales (Algoritmo 1)
Los resultados de clasificacion usando el Algoritmo 1 se resumen en el Cuadro C.1. En la Figura
C.1, se presentan los parametros de las matrices del Cuadro C.1. Los resultados ma pobres se
obtienen con el kernel Kχ2 . Los mejores resultados se obtienen con K = 9.
K = 8 K = 9 K = 10c λ c λ c λ
KH1 200 5 200 7 250 3KH2 200 9 200 5 250 3KTV 200 5 175 11 250 5Kχ2 200 9 150 11 250 5
K = 8 K = 9 K = 10c λ γ c λ γ c λ γ
KGH1 175 3 0.1 150 11 0.1 250 3 0.1KGH2 150 3 0.3 200 3 0.1 125 5 1.5KGTV 175 3 0.1 200 3 0.1 250 3 0.1KGχ2 175 9 0.7 175 9 0.7 150 5 3
Figura C.1: Parametros del Cuadro C.1: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ).
98
Apendice C. Resultados de craneosinostosis 99
K = 8 K = 9 K = 10S M C S M C S M C
S 92.31 1.1 6.59 93.41 2.2 4.4 91.21 2.2 6.59KH1 M 2.63 86.84 10.53 2.63 81.58 15.79 0 94.74 5.26
C 7.55 1.89 90.57 5.66 3.77 90.57 3.77 9.43 86.79
S 92.31 3.3 4.4 92.31 3.3 4.4 91.21 2.2 6.59KH2 M 0 92.11 7.89 0 89.47 10.53 2.63 92.11 5.26
C 3.77 7.55 88.68 3.77 7.55 88.68 5.66 3.77 90.57
S 92.31 1.1 6.59 93.41 3.3 3.3 95.6 1.1 3.3KTV M 0 86.84 13.16 2.63 84.21 13.16 0 81.58 18.42
C 5.66 1.89 92.45 5.66 1.89 92.45 5.66 1.89 92.45
S 95.44 4.4 0 93.41 4.4 2.2 93.41 1.1 5.49Kχ2 M 2.63 84.21 13.16 0 84.21 15.79 2.63 78.95 18.42
C 0 9.43 90.57 5.66 3.77 90.57 3.77 0 96.23
S 95.6 1.1 3.3 96.7 2.2 1.1 96.7 1.1 2.2KGH1 M 0 94.74 5.26 2.63 89.47 7.89 0 94.74 5.26
C 7.55 3.77 88.68 1.89 3.77 94.34 7.55 3.77 88.68
S 97.8 1.1 1.1 96.7 2.2 1.1 95.6 2.2 2.2KGH2 M 2.63 92.11 5.26 0 94.74 5.26 0 94.74 5.26
C 7.55 3.77 88.68 3.77 3.77 92.45 5.66 1.89 92.45
S 96.7 2.2 1.1 95.6 2.2 2.2 96.7 1.1 2.2KGTV M 0 94.74 5.26 0 94.74 5.26 0 94.74 5.26
C 5.66 5.66 88.68 5.66 1.89 92.45 7.55 3.77 88.68
S 95.6 2.2 2.2 95.6 2.2 2.2 94.51 3.3 2.2KGχ2 M 0 94.74 5.26 0 94.74 5.26 0 94.74 5.26
C 5.26 3.77 90.57 5.66 3.77 90.57 1.89 3.77 94.34
Cuadro C.1: Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matriz deconcurrencia y los kernels definidos en el Cuadro 3.1: sagital(S), metopico(M), control(C). Enlos cuadros de la Figura C.1, se presentan los parametros. Las celdas en gris corresponden al
mejor resultado de la tabla.
C.2. Clasificacion de formas craneales con diccionario de rasgos
reducido (Algoritmo 4)
Los resultados del clasificacion generados con el Algoritmo 4 se presentan en el Cuadro C.2
y los parametros se dan en las tablas de la Figura C.2. El mejor resultado se consigue con el
kernel KGH2. Los peores resultados de clasificacion se generan con el kernel Kχ2 .
Apendice C. Resultados de craneosinostosis 100
K = 8 K = 9 K = 10S M C S M C S M C
S 87.91 5.49 6.59 91.21 1.1 7.69 94.51 1.1 4.4KH1 M 0 92.11 7.89 0 86.84 13.16 0 73.68 26.32
C 1.89 7.55 90.57 3.77 1.89 94.34 5.66 18.9 92.45
S 95.6 4.4 0 94.51 2.2 3.3 91.21 3.3 5.49KH2 M 0 86.84 13.16 0 89.47 10.53 0 86.84 13.16
C 3.77 9.43 86.79 3.77 7.55 88.68 9.43 7.55 83.02
S 93.41 2.2 4.4 92.31 3.3 4.4 91.21 2.2 6.59KTV M 0 86.84 13.16 0 92.11 7.89 0 86.84 13.16
C 5.66 5.66 88.68 3.77 7.55 88.68 5.66 3.77 90.57
S 84.62 12.09 3.3 85.71 14.29 0 75.82 21.98 2.2Kχ2 M 0 86.84 13.16 0 92.11 7.89 0 86.84 13.16
C 13.21 9.43 77.36 11.32 13.21 75.47 3.77 5.66 90.57
S 95.6 1.1 3.3 96.7 1.1 2.2 96.7 2.2 1.1KGH1 M 0 94.74 5.26 0 92.11 7.89 0 86.84 13.16
C 7.55 0 92.45 5.66 1.89 92.45 1.89 3.77 94.34
S 97.8 1.1 1.1 98.9 1.1 0 97.8 1.1 1.1KGH2 M 0 94.74 5.26 0 94.74 5.26 0 89.47 10.53
C 7.55 1.89 90.57 3.77 1.89 94.34 3.77 3.77 92.45
S 95.6 1.1 3.3 95.6 2.2 2.2 97.8 1.1 1.1KGTV M 0 94.74 5.26 2.63 92.11 5.26 2.63 89.47 7.89
C 9.43 0 90.57 1.89 1.89 96.23 5.66 1.89 92.45
S 96.7 2.2 1.1 95.6 1.1 3.3 94.51 3.3 2.2KGχ2 M 0 94.74 5.26 2.63 89.47 7.89 2.63 89.47 7.89
C 5.66 1.89 92.45 3.77 3.77 92.45 5.66 3.77 90.57
Cuadro C.2: Matrices de confusion ( %) optimas con K = 8, 9, 10 topicos. Se usa la matrizde concurrencia reducida y los kernels definidos en el Cuadro 3.1: sagital(S), metopico(M),control(C). En los cuadros de la Figura C.2, se dan los valores de los parametros de las matrices
de confusion. En gris se resalta el mejor resultado de la tabla..
K = 8 K = 9 K = 10c λ c λ c λ
KH1 200 7 250 13 250 9KH2 250 3 250 11 225 9KTV 200 11 250 3 250 9Kχ2 225 11 250 11 250 9
K = 8 K = 9 K = 10c λ γ c λ γ c λ γ
KGH1 100 9 0.1 100 9 0.7 225 7 0.1KGH2 250 3 0.7 100 9 1.5 250 9 1.5KGTV 100 9 0.1 75 13 0.1 50 13 1.5KGχ2 100 9 0.3 100 11 0.1 50 11 3
Figura C.2: Parametros del Cuadro C.2: numero de topicos (K), numero de clusters parak-means (c), longitud de la palabra(λ), parametro del kernel gaussiano (γ).
Bibliografıa
[1] C. Marchac E. Lajeunie, M. Le Merrer and D. Renier. Genetic study of scaphocephaly.
Am. J. Med. Gen., 62:282–285, 1996.
[2] M.L. Speltz, Kapp-Simon, Marsh J. K.A., and N.G. Dawson. Single suture synostosis: a
review of neurobehavioral research and theory. Journal of Pediatric Phsychology, pages
651–668, 2004.
[3] Magge, S.N., Westerveld, M., Pruzinsky, T., Persing, and J.A. Long-term neuropsychologi-
cal effect of sagittal craniosynostosis on child development. J. Craniofacial Surgery, pages
99–104, 2002.
[4] R. Virtanen, T. Korhonen, J. Fagerholm, and J. Viljanto. Neurocognitive sequelae of
scaphocephaly. Pediatrics 3, pages 791–795, 1999.
[5] Magge S.N. Westerveld M. Pruzinsky T. Pershing, J. Neuropsychological outcomes fo-
llowing sagittal craniosynostosis. Presented at the annual meeting of the American Cleft
Palate-Craniofacial Association, Scottsdale, AZ, 1999.
[6] A. Z. Nowakowski. Advances of quantitative ir-thermal imaging in medical diagnostics.
Departament of Biomedical Engineering.
[7] R. M. Rangaraj. Biomedical image analysis. CRC Press, 2006.
[8] M. Abdul Rahman Al-kasser L. Abdul-rahman Alı, A. Al-Kassir Abdulla. Aplicaciones de
la termografıa infrarroja en la medicina y la industria alimentaria. Alimentacion, equipos
y tecnologıa, pages 89–95, 2004.
[9] Pedro Garcıa Barreno. Las tecnologıas de la imagen en la medicina. Real academia de
ciencias.
[10] Micki Cuppett y Katie M Walsh. Medicina general aplicada al deporte. Elsevier Mosby,
2005.
[11] Abramowitz M. Introduction to microscopy. Molecular expressions, 2007.
101
Bibliografıa 102
[12] Cullity Bernard Dennis. Elements of X-Ray diffraction. Addison-Wesley Publishing Com-
pany, Inc.
[13] Cremerius U-et al. Young H, Baum R. Measurement of clinical and subclinical tumour res-
ponse using [18f]-fluorodeoxyglucose and positron emission tomography. European Journal
of Cancer, 1999.
[14] Henry Rouviere and Delmas Andre. Anatomıa Humana: Descriptiva, Topografica y Fun-
cional. MASSON 9na edicion, 1996.
[15] T. W. Sadler. Langman - Fundamentos de Embriologia Medica. Panamerican, 1996.
[16] R. E. Kass and A. E. Raftery. Bayes factors. Journal of the American Statistical Associa-
tion, 90:773–795, 1995.
[17] Renier D. Arnaud E. and Marchac D. Prognosis for mental function in scaphocephaly.
Journal of Neurosurgery, 83:476–479, 1995.
[18] C. A. Jocher K. A. Kapp-Simon, A. Figueroa and M. Shafer. Longitudinal assessment
of mental development in infants with nonsyndromic craniosynostosis with and without
cranial release and reconstruction. Plast. Reconstr. Surg., 92:831–9.
[19] S. R. Lele and J. T. Richtsmeier. An invariant approach to the statistical analysis of shapes.
Chapnan and Hall/CRC, 2001.
[20] Thomas Hofmann. Unsupervised learning by probabilistic latent semantic analysis. Ma-
chine learning, pages 177–196, 2001.
[21] H. J. Lin, S. Ruiz-Correa, L. G. Shapiro, A. V. Hing, M. L. Cunningham, M. L. Speltz,
and R. W. Sze. Symbolic shape descriptor for classifying craniosynostosis deformations
from skull imaging. IEEE Engineering in Medicine and Biology Society (EMBS), Annual
International Conference, pages 6325–6331, 2005.
[22] S. Ruiz-Correa, R. W. Sze, H. J. Lin, L. G. Shapiro, M. L. Speltz, and M. L. Cunningham.
Classifying craniosynostosis deformations from skull shape imaging. Computer-Based Me-
dical Systems (CBMS). The 18th IEEE Symposium, pages 335–340, 2005.
[23] S. Ruiz-Correa, R. W. Sze, J. R. Starr, H. J. Lin, M. L. Speltz, M. L. Cunningham, and A. V.
Hing. New scaphocephaly severity indices of sagittal craniosynostosis. a quantitative study
with cranial index quantifications. The American Cleft Palate-Craniofacial Association
Journal, pages 211–221, 2006.
[24] You Z and Jain AK. Performance evaluation of shape matching via chord length distribu-
tion. Computer vision, Graphics, and Image Processing, pages 185–198, 1984.
[25] B. Scholkopf and A. Somola. Learning with kernels. The MIT Press, 2002.
Bibliografıa 103
[26] D.J. Hsu S. Dasgupta and N. Verma. A concentration theorem for projections. Twenty-
Second Conference on Uncertainty in Artificial Intelligence, 2006.
[27] Miriam Presutti. La matriz de co-ocurrencia en la clasificacion espectral. 4a Jornada de
de Educacao em Sensoriamento Remoto no Ambito do Mercosul, 2004.
[28] Gregor Heinrich. Parameter estimation for text analysis. Technical Note, 2008.
[29] Marco Cuturi and Kenji Fukumizu. Kernels on structured objects through nested histo-
grams. NIPS, 2006.
[30] S. Ruiz-Correa, D. Gatica-Perez, H. J. Lin, L. G. Shapiro, and R.W. A bayesian hierarchical
model for classifying craniofacial malformations from ct imaging. Proceedings of the 30th
Annual International Conference of the IEEE Engineering in Medicine and Biology Society,
pages 4063 – 4069, 2008.
[31] B. Erfron and R Tibshirani. An introduction to the Bootstrap. Chapman and Hall, 1991.
[32] J. M. Bernardo, M.F.A. Smith, and M. F. A. Bayesian theory. New York: Wiley, 19944.
[33] Thomas L. Griffiths and Mark Steyvers. Finding scientific topics. Proceedings of the
National Academy os Sciences, pages 5228–5235, 2004.
[34] P. Perona R. Fergus and A. Zisserman. A visual category filter for google images. In Proc.
ECCV, 2004.
[35] R. Fergus, L. Fei-Fei, P. Perona, and A Zisserman. Learning object categories from google’s
image search. Tenth IEEE International Conference on Computer Vision, pages 1816–1823,
2005.
[36] P. Quelhas, F. Monay, J.-M. Odobez, D. Gatica-Perez, T. Tuytelaars, , and L. Van Gool.
Modeling scenes with local descriptors and latent aspects. Proc. IEEE Int. Conf. on Com-
puter Vision (ICCV), 2005.
[37] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. J. Mach.
Learn. Res., 3:993–1022, 2003. ISSN 1533-7928.
[38] A. Popescul, L. Ungar, D. Pennock, and S. Lawrence. Probabilistic models for unified co-
llaborative and content-based recommendation in sparse-data enviroments. In proceedings
of the seveth Conference Uncertainty in Artificial Intelligence, pages 437–444, 2001.
[39] Pedro F. Felzenswalb and Daniel P. Huttenlocher. Glioma del tronco encefalico infantil.
National cancer institute, 2008.
[40] Freeman ML Jennings MT and Murray MJ. Strategies in the treatment of diffuse pon-
tine gliomas: the therapeutic role of hyperfractionated radiotherapy and chemoterapy. J
Neuroonco, pages 207–22, 1996.
Bibliografıa 104
[41] Balma Mena Alexandra Gutierrez Ramirez y Hazel Rodriguez Rodriguez, Carlos. Glioma
del tronco encefalico infantil: revision y reporte de un caso. Acta pediatr. costarric, pages
52–55, 2003.
[42] Gonzalo Melo Camilo Zubieta FabianNeira Fernando Gonzalez, Pedro Penagos and Sandra
Pena. Brain stem gliomas. Rev lolomb cancerol, pages 112–117, 2006.
[43] Mariano Reyes Fernando Saba y Gonzalo Sion Bartolome Drozdowicz, Guillermo Bernas-
coni. Segmentacion semiautomatica de imagenes de resonancia magnetica, basada en redes
neuronales artificiales. Ciencia, Docencia y Tecnologıa, pages 117–155, 2005.
[44] Pedro F. Felzenswalb and Daniel P. Huttenlocher. Efficient graph-based image segmenta-
tion. International Journal of Computer Vision, 2004.
[45] David G. Low. Distinctive image features from scale-invariant keypoints. International
Journal of Computer Vision, pages 91–110, 2004.
[46] David Lowe Stephen Se and Jim Little. Global localization using distinctive visual features.
Proceedings of the 2002 IEEE/RSJ Intl. Conference on Intelligent Robots and Systemsm
EPFL, 2002.
[47] Liangliang Cao and Li Fei-Fei. Spatially coherent latent topic model for concurrent object
segmentation and classification. IEEE 11th International Conference on Computer Vision,
pages 1–8, 2007.
[48] Chih-Shung Chang Chih-Wei Hsu and Chih-Jen Lin. A practical guide to support vector
classification. Software available at http://www.csie.ntu.edu.tw/ cjlin/libsvm, 2008.
[49] Peter W. Foltz Thomas K Landauer and Darrell Laham. An introduction to latent semantic
analysis. Discourse Processes, pages 259–284, 1998.
[50] Rene Venegas V. Analisis semantico latente: una panoramica de su desarrollo. Revista
signos, pages 121–138, 2003.
[51] Laura Dietz and Avare Stewart. Utilize probabilistic topic models to enrich knowledge
bases. In Proceedings of the ESWC, Workshop on Mastering the Gap: From Information
Extraction to Semantic Representation, 2006. doi: http://sunsite.informatik.rwth-aachen.
de/Publications/CEUR-WS//Vol-187/25.pdf.
[52] Mark Steyvers and Thomas L. Griffiths. Rational analysis as a link between human memory
and information retrieval.
[53] Mark Steyvers and Tom Griffiths. Probabilistic topic models. In T. Landauer, D McNama-
ra, S. Dennis, and Kintsch (Eds.), Latent Semantic Analysis: A road to Meaning Laurence
Erlbaum, 2006.
Bibliografıa 105
[54] Thomas Hofmann. Probabilistic latent semantic indexing. In SIGIR ’99: Proceedings of
the 22nd annual international ACM SIGIR conference on Research and development in
information retrieval, pages 50–57, New York, NY, USA, 1999. ACM. ISBN 1-58113-096-1.
doi: http://doi.acm.org/10.1145/312624.312649.
[55] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Retrieval. Addison
Wesley Longman Publishing Co. Inc., 1999.
[56] Thomas Hofmann. Probabilistic latent semantic analysis. Uncertainity in Artificial Inte-
lligence, UAI’99, Stockholm, 1999.
[57] Susan T. Dumais Scott Deerwester and Richard Harshman. Probabilistic latent semantic
analysis. Journal of the American Society of Information Science, pages 391–407, 1990.
[58] Carlos Guestrin Jonathan Huang and Leonidas Guibas. Maximum likelihood estimation
of dirichlet distribution. Report (CMU-ML-08-108), Machine Learning Department, CMU,
2008.