diseÑo de una metodologÍa para el …oa.upm.es/47315/1/pfc_elia_perez_perez_2017.pdf · pueden...

65
TRABAJO FIN DE GRADO GRADO EN INGENIERÍA BIOMÉDICA DISEÑO DE UNA METODOLOGÍA PARA EL PROCESAMIENTO DE IMÁGENES MAMOGRÁFICAS BASADA EN TÉCNICAS DE APRENDIZAJE PROFUNDO ELIA PÉREZ PÉREZ 2017

Upload: doxuyen

Post on 26-Sep-2018

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

TRABAJO FIN DE GRADO

GRADO EN INGENIERÍA BIOMÉDICA

DISEÑO DE UNA METODOLOGÍA PARA EL PROCESAMIENTO DE

IMÁGENES MAMOGRÁFICAS BASADA EN TÉCNICAS DE APRENDIZAJE PROFUNDO

ELIA PÉREZ PÉREZ

2017

Page 2: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores
Page 3: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

TRABAJO FIN DE GRADO Título: Diseño de una metodología para el procesamiento de

imágenes mamográficas basada en técnicas de Aprendizaje Profundo

Autor: Elia Pérez Pérez

Tutor: Carmen Sánchez Ávila

Departamento: Departamento de Matemática aplicada a las Tecnologías de la Información y las Comunicaciones

TRIBUNAL: Presidente:

Vocal:

Secretario:

Suplente:

FECHA DE LECTURA:

CALIFICACIÓN:

Page 4: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN

TRABAJO FIN DE GRADO

GRADO EN INGENIERÍA BIOMÉDICA

DISEÑO DE UNA METODOLOGÍA PARA EL PROCESAMIENTO DE

IMÁGENES MAMOGRÁFICAS BASADA EN TÉCNICAS DE APRENDIZAJE PROFUNDO

ELIA PÉREZ PÉREZ

2017

Page 5: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

RESUMEN

ElAprendizajeProfundoesunsubcampodentrodelAprendizajedeMáquinaque utiliza diferentes algoritmos de aprendizaje automático para modelarabstracciones de alto nivel en datos usando arquitecturas jerárquicas, conocidascomo redes neuronales profundas (DNNs). Entre los múltiples algoritmos que sepueden encontrar, existen algunos como las redes neuronales convolucionales(CNNs), los autocodificadores y las redes recurrentes (RNNs), que pueden ser degranayudaalahoradeanalizarimágenesmédicas.

Elgranpotencialquetienenestastécnicasparaelanálisisdeimagenmédica

resideensuvelocidadyeficaciaunavezquesetienenunagrancantidaddedatos.Suuso se puede aplicar a tareas tan diversas como la detección y segmentación detumores,asícomosuseguimientoycontrol;lavisualizaciónycuantificacióndelflujosanguíneo, o a la creaciónde sistemasdeayudapara interpretaciónde resultadosmédicos.Porlotanto,eslógicopensarqueenunfuturoserántécnicascadavezmásutilizadas,convirtiéndosemuchasdeestastareasalgopropiodeunordenador.

LosobjetivosdeesteTrabajodeFindeGradosonlossiguientes:-LaintroducciónalAprendizajeProfundoyalosdistintosalgoritmosqueseempleanactualmente,destacandosusventajasydesventajas.-RevisarelestadodelartedelastécnicasdeAprendizajeProfundousadaspara el análisis de imágenes médicas, así como la identificación de loscamposmédicosenlosqueestosalgoritmospuedenserdeutilidad.- La identificación de los algoritmos deAprendizaje Profundoque puedenemplearseenelanálisisdeimágenesmamográficas.- El diseño de una metodología específica para el procesamiento deimágenesmamográficasutilizandolastécnicasmencionadas.

Para ello se llevará a cabo un amplio estudio del estado del arte de los

diversosalgoritmosdeAprendizajeProfundoydesususosenelanálisisdeimagenmédica. También se trabajará en la familiarización con algunos de los algoritmosmásdirectamenterelacionadosconlasegmentacióndeimagen,porsuaplicabilidada ladeteccióndemasasymicrocalcificacionesenmamografíadigital,queserándevital importancia en la metodología diseñada. Para ello se emplearán distintasfuentesbibliográficasdereferencia.

Parafinalizar,conesteProyectosequierenseñalarlasmúltiplesaplicaciones

quetienenlosalgoritmosdeAprendizajeProfundoenmedicina,yresaltarcomosuuso ayudará a los médicos a tomar mejores decisiones, así como a mejorar losresultadosmédicostantoentérminosdetiempocomodeeficacia.PALABRASCLAVE:

APRENDIZAJE DE MÁQUINA, REDES NEURONALES PROFUNDAS, REDESNEURONALESCONVOLUCIONALES,ANALISISDEIMAGENMÉDICA,MAMOGRAFÍA,SEGMENTACIÓNDEIMAGEN.

Page 6: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

SUMMARY

Deep Learning is a part of the broader Machine Learning field that usesdifferentautomaticlearningalgorithmsformodellinghigh-levelabstractionsindatausinghierarchicalarchitectures. Ingeneral, thesearchitecturesareknownasdeepneural networks (DNN). Among the many algorithms that we can find, there aresome such as convolutional neural networks (CNN), autoencoders and recurrentneuralnetworks(RNN),whichcanbeofgreathelpwhenanalysingmedicalimages,especiallyCNNs.

Thegreatpotentialofthesetechniquesformedicalimageanalysisliesinits

speedandefficiencyoncealargeamountofdataiscollected.Therefore,itislogicaltothinkthatinthefuturetheywillbeusedmoreandmore,becomingthisanalysistasktypicalmoretypicalofacomputerthanofadoctor.Itsuseisforeseeninfieldsasdiverseasthedetectionandsegmentationoftumours,aswellastheirmonitoringandcontrol;thevisualizationandquantificationofbloodflow,orthesupportdecisionsystemsforinterpretationofmedicalresults.

TheobjectivesofthisFinalDegreeThesisaretheonesthatfollow:-IntroducingDeepLearningandthedifferentalgorithmsthatarecurrentlyinuse,highlightingtheiradvantagesanddisadvantages.- Reviewing the state of art of the main DL techniques with a greaterperformanceinmedicalimageanalysis,aswellasidentificatingthemedicalfieldsinwhichthesealgorithmscanbeuseful.- The identification of the DL algorithms that can be used for analysingmammographies.-Thedesignofaspecificmethodologyforprocessingmammographicimagesusingtheaforementionedtechniques.

For carryingout this thesis awide studyof the Stateof art of thedifferent

DeepLearningalgorithms,aswellastheiruseinMIAwillbemade.Besides,wewillalsoworkonfamiliarizationwithsomeofthealgorithmsmoredirectlyrelatedwithimage segmentation, due to their applicability to mass detection andmicrocalcifications indigitalmammography,beingbothofvital importance for themethodologythatwillbedesigned.Forthispurpose,differentbibliographicsourceswillbeused.

All in all, this Project wants to point out all the potential applications that

DeepLearning algorithmshave in relation tomedicine.Applying these techniqueswillhelpdoctorstomakebetterdecisionsandalsotoimprovemedicalresultsbothintermsoftimeandefficacy.KEYWORDS:

DEEPLEARNING,DEEPNEURALNETWORKS,CONVOLUTIONALNEURALNETWORKS,MEDICALIMAGEANALYSIS,MAMMOGRAPHY,IMAGESEGMENTATION.

Page 7: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

ÍNDICE1.Introducciónyobjetivos ................................................................. 1 1.1.Introducción ................................................................................... 1 1.2.Objetivos ........................................................................................ 2

2.IntroducciónalAprendizajeProfundo ................................................ 2 2.1.Conceptosbásicos ............................................................................. 2 2.2.PrincipalesmétodosdeAprendizajeProfundo ......................................... 8 2.2.1.Redesneuronalesconvolucionales(CNNs) ....................................................... 9 2.2.2.MáquinasdeBoltzmannrestringidas(RBMs) ................................................. 13 2.2.3.Autocodificadores(AEs) ............................................................................... 14 2.2.4.Codificacióndispersa(sparse-coding) ............................................................ 16 2.2.5.Comparaciónentremodelos ......................................................................... 17

3.AplicacionesdelAprendizajeProfundo ............................................. 17 3.1.AplicacionesdelAprendizajeProfundoenvisiónporordenador ................. 18 3.2.Aplicacionesenimagenmédica ........................................................... 21

4.Diseñodeunametodologíaparaelanálisisdemamografías .................. 30 4.1.Elcáncerdemama ........................................................................... 30 4.2.EstadodelartedelAprendizajeProfundoenimagendelcáncerdemama ..... 32 4.3.Diseñodeunametodologíaparaelanálisisdemamografías ...................... 42 4.3.1.Basededatos .............................................................................................. 42 4.3.2.Pre-procesadoyadecuacióndelosdatos ....................................................... 43 4.3.3.DiseñodelaRedNeuronalConvolucionalProfunda ........................................ 46

5.Conclusionesytrabajosfuturos ...................................................... 50

6.Bibliografía ................................................................................ 51

ANEXO I – ACRÓNIMOS ................................................................ 56

Page 8: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores
Page 9: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

1

1.IntroducciónyobjetivosEnestecapítulosepretendehaceruna introduccióna la temáticaqueabordaestetrabajo,asícomodesupropósitoyobjetivos.

1.1.IntroducciónLosavancesenInteligenciaArtificial(IA)enlosúltimosañosposibilitanlacreacióndenuevas tecnologíasy tienencadavezmásaplicacionesendiversoscampos.Susfundamentos, complejos algoritmos, pretenden dar solución a todo tipo deproblemasintuitivosysubjetivosquehastaahora,losordenadoresnoerancapacesde solucionar, y eran dominio únicamente de los seres humanos, capaces deresolverlosdeformaautomática(i.e.reconoceraalguienenunafoto,oenelcampomédico,detectarlapresenciadeunaanomalíaenunaimagenoenunaseñal).

Para lograr un buen desempeño por parte de los ordenadores en estosproblemas,sebuscahacerquepuedanaprenderdelaexperiencia,queaprendanlarealidad en forma de conceptos simples que se relacionen entre ellos formandootrosmáscomplejos,de formaqueexistauna jerarquíadeconceptos, conmuchascapas. De este modelo de aprendizaje, con múltiples niveles de representación yabstracciónsurgeloqueseconocecomoAprendizajeProfundo(DeepLearning).Losordenadores que trabajan con algoritmosdeAprendizaje Profundo tienenque sercapacesporsimismosdeadquirirsupropioconocimiento,extrayendosuspropiasdeducciones, sus propios patrones de los datos que se le proporcionan. Estacapacidad de aprendizaje es lo que se conoce como Aprendizaje de Máquina(MachineLearning),yenglobaalyamencionadoAprendizajeProfundo.

Sinembargo,pormuynuevoquepuedaparecerestecampo,elAprendizajeProfundo existe desde hace ya bastante tiempo. La ausencia de fama de estastécnicas sedebeadosmotivosprincipalmente:1) lanodisponibilidaddegrandescantidadesdedatosparaentrenaralosmodelos,y2)notenernihardware(HW)nisoftware (SW) en los ordenadores lo suficientemente potentes como para laejecución de los modelos. En los últimos años ambos problemas se han vistosolventados,ysusmúltiplesaplicacioneshanmotivadoelcrecienteinterésporestecampo. Desde clasificación de imágenes y segmentación de estructuras areconocimientodehablaodeteccióndeobjetos, lasposibilidadessonmuchas.Porello, hoy en día está siendo usado por compañías tecnológicas, compañías deinfraestructurasdeSWyparaaplicacionescientíficas,entreotras. Las infinitas aplicaciones científicas y médicas de los algoritmos deAprendizaje Profundo (i.e. para el diagnóstico asistido por ordenador, para hacerpredicciones a partir de grandes cantidades de datos, para procesar imágenes enmedicina,paradiseñarmedicamentosoparaconstruirmapas3Ddel cerebro)sonprecisamente la motivación de este trabajo, pues pueden ayudar a mejorar elcuidadode la saluddel paciente, en términos tantodeprecisión comode rapidez.Una tarea médica en concreto donde estos algoritmos están consiguiendo muybuenos resultados es la de clasificación de lesiones y tumores, es decir, dada unaimagendeterminada,ybasándoseensuscaracterísticas,asignarlea la imagenunadelasdosclasesdesalidaposibles(i.e.tumormalignoobenigno).Enparticular,lasinvestigacionesquelosincorporanparaladeteccióntempranadelcáncerdemamaapartir de mamografías digitales están consiguiendo muy buenos resultados,

Page 10: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

2

ayudandoalespecialistaatomarmejoresdecisionesoafijarseenciertaspartesdelaimagendondepuedenestarlasanomalías.

Porello,porserunaaplicaciónmuyextendida,ytambiénporserelcáncerdemamaunode losmás frecuentes a nivelmundial, en este trabajo se quiereponerespecial atención en las técnicas deAprendizaje Profundoque se pueden emplearpara el diagnóstico, el seguimiento y la evolución de los tumores en las mamas.Además, tras estudiar el estado del arte en profundidad, se diseñará unametodologíabasadaenunalgoritmodeAprendizajeProfundocuyafinalidadsealaclasificacióndedichostumores.

1.2.ObjetivosElpresentetrabajosurgecon la finalidad,porun lado,de introduciral lectorenelcampo del Aprendizaje Profundo y explicar los algoritmos más empleadosactualmente,asícomodeestudiarsupotencialalahoradeayudaraunprofesionalmédicoenelanálisisdeimágenesmédicas;yporotro,conelobjetivoderevisarelestadodelartedelosmodelosdeAprendizajeProfundoparaimagenmamográfica,yapartirdeellodiseñarunametodologíapropiaparaladetecciónyclasificacióndelaslesionespresentesenestasmamografías.

Así, en los primeros capítulos, “Introducción al Aprendizaje profundo” y“Aplicaciones del Aprendizaje Profundo”, se dará prioridad a la actividadinvestigadora, estudiando los distintos modelos que existen en profundidad y elestadodel artede susaplicaciones, conespecial atenciónenaquellaspara imagenmédica.

Esta tarea investigadora también continuará en los capítulos posteriores,puesparadiseñarcadaunadelasfasesquecomponenelsistemadeclasificacióndelesiones en las mamas es necesario conocer primero el problema, y segundo lostrabajos relacionados publicados hasta la fecha. Esto se hará en las dos primerasseccionesdelcapítulo “Diseñodeunametodologíaparaelanálisisdemamografías”,yenlatercerasecciónseexplicarácondetalleelmétododiseñadoysecomentaránbrevementelosresultadosesperados,buscandolaposibilidaddeoptimizarlos.2.IntroducciónalAprendizajeProfundoEnesteprimer capítulo sehaceuna introducciónde formageneral alAprendizajeProfundo. Se discutirán los conceptos principales necesarios para entender elfuncionamientodeunaredprofundayseexplicaránlasmotivacionesparausarlas,asícomoalgunasdesusventajas.Tambiénse introducirán losprincipales tiposdealgoritmos de Aprendizaje Profundo, y se comentarán sus ventajas y desventajas.Todo esto es imprescindible para entendermás adelante el sistemadescrito en elCapítulo 4. Para ampliar esta información se recomienda leer los trabajos[1][2][3][5],apartirdeloscualessehanelaboradoesteCapítulo2.

2.1.ConceptosbásicosComoyaseintrodujoenelsecciónanterior,tantoelAprendizajeProfundocomoel Aprendizaje de Máquina son dos formas de Inteligencia Artificial. Losmétodosdel primero se pueden englobar dentrodel segundo a su vez, y por ello

Page 11: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

3

para comprender en qué consiste el Aprendizaje Profundo es esencial entenderprimerolasbasesenlasqueestácimentadoelAprendizajedeMáquina.

Para empezar, se debe tener claro cual es el objetivo del aprendizaje demáquina (o aprendizaje automático). Podríamos decir que es el desarrollo desistemasquepuedencambiarsucomportamientodemaneraautónomabasadosensuexperienciay,portanto,puedeaprenderapartirdeunosdatosdados.Aprenderhace referencia a que el algoritmo, a partir de la experiencia, puede mejorar sudesempeño, sermás hábil, a la hora de realizar unas determinadas tareas. Estastareas son lasaplicacionesquese levanadaralalgoritmo; laclasificaciónde lasentradas en distintas categorías, la regresión o predicción de un valor dado unaentradadeterminada, la transcripcióndeunaentradanodel todoestructuradaenunasalidadetextodiscreta,latraduccióndemáquina,ladeteccióndeanomalías,lasíntesisymuestreoparalageneracióndemásdatos,laprediccióndevaloresdadasentradasvacías,lalimpiezadedatos,olaestimacióndedensidadylaestimacióndela funcióndeprobabilidaddemasas.Estas tareas sonsoloejemplos,yalgunasdeellasseránampliadas;lasrelevantesparavisiónporordenadoryparaelanálisisdeimágenesmédicas,juntoconotrasmásadelanteenelCapítulo3.

Para medir el desempeño del algoritmo en una cierta tarea se empleandistintas medidas, de las cuales la más común, sobre todo para tareas declasificación, es laprecisión delmodelo, que hace referencia a la proporción delmodeloquepredicelasalidadeformacorrecta.Estainformaciónesequivalentealaproporcionada por la tasa de error, la proporción de salidas predichasincorrectamente. Para evaluar el desempeño del algoritmo correctamente loadecuadoesemplearunconjuntodedatosdistintoalusadoparaentrenarlo.Aquíaparecenlosconceptosdeconjuntodedatosdeentrenamientoydeprueba,queseexplicaránmásadelante.

Los algoritmos de aprendizaje de máquina pueden clasificarse, de formageneral,ensupervisadosynosupervisados.Estaclasificaciónhacereferenciaalosdatos con los que experimentan durante su entrenamiento. Un algoritmo es deaprendizajenosupervisadocuandotrabajaconunconjuntodedatosconmuchascaracterísticas del cual aprende propiedades para estructurar esos datos. En elcontexto deAprendizaje Profundo estos algoritmos suelen tener que aprender ladistribucióndeprobabilidaddelconjuntodedatosociertascaracterísticasacercadeesteconjunto,peroencualquiercasotienequehacerloporsímismo,sintenerningún tipo de guía o de ayuda. Por el contrario, los algoritmos de aprendizajesupervisado empleanunconjuntodedatos formadoporejemplos,o loquees lomismo, instancias, asociados con una etiqueta. Así, en este caso, el algoritmoaprendeaclasificarlasinstanciasbasándoseenestasetiquetas,comosituvieraunprofesor que le enseñara al sistema qué es lo que tiene que hacer. Aunque lamayoría de algoritmos suelen trabajar de una de estas maneras, existen másvariantes que hacen referencia a este paradigma de aprendizaje, como son elaprendizaje semi-supervisado, el aprendizaje multi-instancia, y aprendizajereforzado(reinforcementlearning).

Para describir el conjunto de datos se tienen las características, cuyaelecciónesesencialpara lograrunbuendesempeñodelalgoritmo.Lomáscomúnes agruparlas en unamatriz de diseño, siendo cada instancia un vector, y siendotodosestosvectoresdelmismotamaño(i.e.paraunconjuntodedatosformadopor

Page 12: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

4

fotografías,todasellasenunprincipiotendríanqueserdelmismotamaño,locualesdifícil.Estepuntoseanalizarámásadelantecuandosetratelapartedeanálisisdeimágenesmédicas).ParalarepresentacióndecaracterísticasexisteotrapartedemétodosdentrodelAprendizajedeMáquina,queasuvezagrupanalosbasadosenAprendizaje Profundo, que se conocen como métodos de Aprendizaje deRepresentación o representation learning, que exploran técnicas para averiguarcaracterísticasútilesdelosdatosapartirdetodalainformaciónproporcionada.

De este conjunto de datos inicial no se emplean todos para el mismopropósito,sinoquesesuelenparticionar.Paraqueelalgoritmoaprendasesueleusar el porcentaje mayor de los datos, lo que llamamos conjunto de datos deentrenamiento. Una vez entrenado el modelo, se ejecuta sobre un conjunto dedatosdiferente,elconjunto de prueba,paravercómogeneraliza.Estepoderdegeneralizaciónesunindicadordelobienquefuncionaelalgoritmo,ysepuedevermidiendo tanto el error de entrenamiento como el error de prueba (o error egeneralización), y siempre se busca el disminuirlos al máximo. Como su propionombreindica,elerrordeentrenamientosemideenelconjuntodeentrenamiento,y el error de prueba semide en el conjunto de prueba. Para hacer la susodichadivisiónde losdatos, se suele seguirunaestrategiadegeneracióndedatos, en lacual se asume que los datos de cada conjunto son independientes y que estándistribuidosdeformaidéntica.

Para lograr la situación ideal de generalización óptima (que el modelo seajuste bien a nuevos datos), tiene que cumplirse que tanto el error deentrenamiento como la diferencia entre el error de entrenamiento y el error deprueba sean pequeños. Pero esto no siempre se cumple, dando lugar a lo que seconoce como underfitting, cuando el modelo es demasiado sencillo como paracaptar la complejidadde losdatos (seasocia conunerrordeentrenamientomásaltode loadecuado)yoverfitting,cuandoelmodeloquedademasiadoajustadoalas características de los datos con los que ha sido entrenado y no puedegeneralizarse (se relaciona con una diferencia entre el error de prueba y el deentrenamiento demasiado grande). Estos dos conceptos están estrechamenterelacionadosconeldecapacidad,queeslahabilidaddelmodeloaadaptarseaunaamplia variedad de funciones. Si la capacidad del modelo es baja, éste no seadaptarábienalosdatosdeentrenamiento,ysiesaltaseadaptarádemasiado.Hayque buscar siempre la forma de lograr una capacidad intermedia entre ambassituaciones.

Siguiendoen la líneadeentenderelcomportamientodelalgoritmoexistenunaseriedeparámetrosdenominadoshiperparámetrosconlosquesecontrolalacapacidad del algoritmo, entre otras cosas. El problema es quemuchos de estoshiperparámetros no pueden ser aprendidos en los datos de entrenamiento, puesnos llevarían de nuevo al problema de overfitting y por lo tanto a resultadoserróneos.Parasolucionarestoapareceuntercerconjuntodedatos,elconjuntodevalidación,formadoporpartedelosdatosdelconjuntodeentrenamiento,yqueseusaparaestimarel errordegeneralizacióndurantey trasel entrenamiento.Estoresultaútilparapoderajustarsobrelamarchaloshiperparámetros.

En cuanto a las estrategias que se siguen para la división de los datos enentrenamientoyvalidación,lomáscomúnesusarporcentajes,cumpliendounratio80:20, respectivamente. Otro tipo de táctica habitual es la cross-validation o

Page 13: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

5

validación cruzada (CV), en cualquiera de sus diferentes formas (i.e. validacióncruzada dejar-uno-fuera o leave-one-out, validación cruzada k-veces, etc.). La CVconsiste básicamente en repetir las fases de entrenamiento y de validación endistintossubconjuntosdedatosescogidosdeformaaleatoria.

Otros conceptos de interés a la hora de calificar el desempeño de unalgoritmodeaprendizajedemáquinasonaquellosrelacionadosconlaestadística,comoelsesgo, lavarianza,yelerrorestándar,queestimanel funcionamientodelalgoritmo.Elsesgoobiaseselerrorasociadoaasuncionesincorrectasalahoradeentrenar,yestárelacionadoconelunderfitting,mientrasquelavarianzaseasociaaloverfitting,yhacereferenciaaunaaltasensibilidadapequeñasvariacionesenlosdatos.

Hasta ahora, todos estos conceptos son conceptos compartidos poralgoritmosdeAprendizajedeMáquinaydeAprendizajeProfundo,perocuandosetrabajan con modelos de este segundo grupo, aparecen nuevos términos que esconvenienteexplicar.

SepartedelhechodequeunmodelodeAprendizajeProfundoestáformadopor una serie de capas, a su vez formada por unidades o neuronas, y quemediante la adicióndemás capas y/oneuronas se lograqueunared representefuncionesycaracterísticasdecomplejidadcreciente.

El término red hace referencia a que el modelo se estructura agrupandomúltiples funciones, a modo de cadena. La primera función es la que se conocecomoprimeracapade lared, lasegundacomosegundacapa, terceracapa,cuartacapa, y así sucesivamente. Esta primera capa también se conoce como capa deentrada,puesesalaquelelleganlosdatos,delmismomodoquealaúltimacapadelaredseledenominacapadesalida.Elrestodelascapas,entreladeentradayladesalidasedenominancapasocultas,ydeellasnosemuestranuncasusalida.La longitud de esta cadena, el número de funciones que se tengan, es laprofundidaddelared.

El término neurona para denominar a cada una de las unidades quecomponen una capa, así como el hecho de llamar a losmodelos “neuronales” sedebeaqueenunprincipioestosmodelosseinspiraronenlaNeurociencia(sibienhoyendíaestaasociaciónestámásendesusoporquelafinalidaddeestasredesnoesmodelarelcerebronimuchomenos,sinoelconseguirunosbuenosresultadosque puedan ser generalizados dado un problema en concreto). Las unidades oneuronas actúan en paralelo, y determinan la anchura del modelo. Cada unidadrecibevariasentradasdeotrasunidadesycalculasupropiovalordeactivación.

Lascapas formadasporneuronastienenqueconectarseentreellas, locualsedefineapartirdelamatrizdepesos.Porejemplo,silamatrizdepesosdefineunatransformaciónlineal,todaunidaddeentradaestaráconectadaatodaunidaddesalida,loqueimplicamúltiplesconexiones.Eltenermuchasconexionessuponeaveces un problema, en términos computacionales, y por ello también es habitualaplicaralgúntipodeestrategiaalaredparareducirlasconexiones.

Así,elnúmerodecapasdered,elnúmerodeunidadesdecadacapa,cómoseconectan las capas entre ellas y otras decisiones de diseño se engloban en elconceptodearquitecturadelared.

Page 14: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

6

Enotraspalabras,escogerlaarquitecturadelaredconsisteendecidiracercade la anchurade sus capas y de suprofundidad.Aunque las redesneuronales sedenominen “profundas” es importante no equivocarse con el significado de esteconcepto, pues no es necesario tenermuchas capas para que nuestra red resulteeficiente;unasolacapaoculta,ademásdeladeentradaydeladesalidasuelensersuficientes, y mejor opción que muchas, para adaptarse al conjunto deentrenamiento y poder generalizarse. Si se hacen las redes más profundas,añadiendo capas, se compensa usando menos neuronas por cada capa y menosparámetros, pero esto implica también que sean más difíciles de optimizar. Así,como no hay un modelo preestablecido para elegir la arquitectura, lo mejor essiempre experimentar con ella y ver los resultados que se obtienen con lasdiferentes opciones propuestas, teniendo como guía al conjunto de validación. Aestaconclusiónsepuedellegartambiénsisepiensaenlaredcomounaestructuraacapas, en la que cada capa es unpaso que hace uso del resultado obtenido en elpasoanterior.Así,enelprimerpasoelmodeloaprendeunacaracterísticasimple,en el segundo una un poco más compleja a partir de la anterior, y asísucesivamente. Esta es una comparación común y fácil para comprender cómofuncionaunalgoritmodeunaredneuronalprofunda.

En las redes neuronales, el concepto de entrenamiento, del cual ya se hahablado, también juega un importante papel. El entrenamiento requiere siempredistintasymúltiplesdecisionesdediseño(i.e.elegireloptimizador, la funcióndecoste,laformadelasunidadesdesalida,etc.).Enconcreto,paralascapasocultasesimportante la elección de la función de activación, que es la que se encarga decalcular un nuevo valor de salida a partir de todos los valores de entrada que lellegan. Lo habitual es escoger funciones de activación no lineales (i.e. la funciónsigmoide), pues las lineales solo serían válidas para resolver problemas muysencillos.

ElmodelomásrepresentativodeAprendizajeProfundoesredneuronalconalimentación positiva (También conocida como Deep Feedforward Network,Feedforward Neural Network, multilayer perceptrons) o lo que es lo mismo, unperceptrón multicapa (MLP), base de muchos otros modelos detallados en lassiguientespáginas.EnlaFigura1semuestralaestructuradeunMLPcontrescapasocultasentreentradaysalida,paralaclasificacióndeimágenes.Sufuncionamientocomienzaporintroducirenlacapadeentradalospíxeles,datosqueporsímismoun ordenador no podría interpretar llegando a un resultado de clasificacióncoherente.Enlugardeintentarhacerunmapeopíxel-clasedeformadirecta,lohaceporpasos,deformamássimple,asignandoacadacapaunacaracterísticadistinta.Así,comienzapormapearlospíxelesalasesquinas,lasesquinasaloscontornosybordes, éstos a las partes de los objetos, y finalmente, se identifica el objeto encuestión.

Si uno sigue la explicación del funcionamiento de este MLP, se puedeentender claramente el concepto de alimentación positiva (o de propagaciónhaciadelante,feedforward),quehacereferenciaaquelainformaciónseempiezaaevaluar en la entrada y termina en la salida sin volver hacia atrás. Así, lainformaciónesrecogidadetodas lasentradasporunafuncióndeagregación,y lasalida es calculada a partir de esamisma función y evaluada con una función deactivación.Todosestoscálculosnecesariosparadefinirlasalidatienenlugarenlascapasocultasdelared,entrelaentradaylasalida.Elconceptoopuestoaestesería

Page 15: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

7

el de retroalimentación, que es el fundamento de las Redes NeuronalesRecurrentes (RNNs). La retroalimentación, también conocida comoretropropagación o back-propagation es un algoritmo de entrenamiento de lasredes en el cual la información puede fluir hacia atrás, de forma que calcula elgradientedelasfuncionesqueconstituyenlaredneuronalprofunda.

Figura1.Perceptrónmulticapacontrescapasocultasparalaclasificacióndeimágenes.

Obtenidade[1].

Desde una perspectiva un poco más compleja, si nos adentramos en loselementos propios del diseño de la red, para empezar es importante hacer unaelección adecuada de la función de coste. Una opción frecuente es emplear lamáxima verosimilitud (maximum likelihood), lo cual significa usar la entropíacruzada entre los datos de entrenamiento y las predicciones del modelo comofunción de coste; con una forma específica según el modelo en el que estemostrabajando.Unadelasgrandesventajasquepresentaesqueevitaeldiseñopropiodefuncionesdecosteparacadamodeloenparticular.Lasalidadeestafunciónsonsiempredistribucionesdeprobabilidad,perotambiénsepuedebuscarotrotipodesalidas,comomedidasestadísticas.

Laelecciónde la funciónde costeestá ligadaa la elecciónde launidaddesalida, que de formahabitual es o bien lineal, o sigmoide o softmax[12], que seemplean, respectivamente, para hacer la media de una distribución gaussianacondicional,parapredecir el valordeunavariablebinaria, y para representar ladistribución de probabilidad en las n clases diferentes, a modo de clasificador.Aunque estas son las tres formas más comunes, se le puede dar prácticamentecualquierformadeseadaaestacapadesalida.

Eldiseñodelascapasocultasdelaredtambiénesalgoimportantealahoradeconstruirunmodelo,sibientodavíanoexistenunaseriedeprincipiosteóricosclarossobrecómohacerlo.Entrelosmuchostiposdeunidadesocultas,sepuedendestacarlasunidadeslinealesrectificadas,yaquesuelenserunabuenaelecciónenla mayoría de los casos. Otras opciones son unidades ocultas lineales, ocultassoftmax,ocultassoftplus,ocultasRBF(RadialBasisFunction),etc.

Paraterminarconesteapartadoseintroducendosdeconceptosenrelacióncon la regularización, definida como “cualquier modificación que se hace a unalgoritmo de aprendizaje con la intención de reducir su error de generalización

Page 16: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

8

pero no su error de entrenamiento” [1]. Para lograr esta finalidad se pueden oponerrestriccionesalmodeloousarmétodosdeconjunto(ensemblemethods).Deestas últimas destaca el aumento de datos, muy usado en problemas declasificación, y en particular para el reconocimiento de objetos, tanto por susencillez como por sus buenos resultados (i.e. operaciones de traslación,convolución,deescalado,etc.,perosiempreconcuidadodenomodificarlasclasesdesalida).Otrasestrategiascomunessonlaadiciónderuidoa lasentradas,comoen el caso del autocodificador denoising, y la compartición de parámetros oparametersharing,quefuerzaadeterminadosgruposdeparámetrosaseriguales,siendo algo ventajoso en términosdememoria. Esta técnica esmuyusada en lasredes neuronales convolucionales (Convolutional Neural Networks, CNNs) paravisiónporordenador,puespermiteincrementardeformasignificativaeltamañodelas redes sin la necesidad del correspondiente aumento de los datos deentrenamiento.EnlasiguienteseccióndedescribiránendetallelascaracterísticasdelasCNNs.

2.2.PrincipalesmétodosdeAprendizajeProfundoConelcreciente interésporestecampo,cadavezexistenmástiposdealgoritmosde Aprendizaje Profundo, que van surgiendo comomodificaciones de otros paraobjetivosespecíficosyconcretos.

Noesposiblehacerunaclasificacióndemaneraestrictaycerrada,puesenfunción de los autores y del enfoque, estas clasificaciones varían. Por ello, se haescogido la clasificación que ha resultado más adecuada para este trabajo, deacuerdo con la presentada en [3]. Los algoritmos revisados se agrupan así en lascuatrocategoríassiguientes:1)RedesNeuronalesConvolucionales,2)MáquinasdeBolztmann restringidas, 3) Autocodificadores y 4) Codificación dispersa; que seplasmandeformamásaclaratoria,juntoconsusvariantes,enlaFigura2. Deestascuatro categorías se explicarán las nocionesprincipales y se analizarán tanto suscontribucionescomosuslimitaciones.

Porotrolado,seprestaráespecialatenciónenexplicarlasCNN[6],[7]porserlasquemásaplicacionestienenenanálisisdeimágenesmédicasyenparticularenelanálisisdemamografías,comoseveráenlosCapítulos3y4.

Figura2:EsquemadeagrupaciónseguidoparalosdistintosmétodosdeAprendizajeProfundo.

AprendizajeProfundo

RedesNeuronalesConvolucionales

AlexNet

Clarifai

SPP

VGG

GoogleLeNet

MaquinasdeBoltzmannRestringidas RedesdeCreenciaProfunda

MaquinasdeBoltzmannProfundas

ModelosdeEnergíaProfunda

AutocodiYicadores Autocoditicadordisperso

Autocoditicadordenoising

AutocoditicadorcontractivoSparse-Coding

Page 17: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

9

2.2.1.Redesneuronalesconvolucionales(CNNs)LasredesneuronalesconvolucionalesoCNNs,desunombreeninglés,sontalvezlaparte de la IA quemás se ha visto inspirada por la Biología, en concreto por laNeurociencia,yaquesufuncionandeformaanálogaacomoloharíaelcórtexvisualprimario (i.e. En ambos casos se define la información almacenada enmapas decaracterísticas 2D, y las CNNs están formadas por unidades básicas individualesagrupadas en capas de agrupamiento, emulando a las células del córtex que seagrupanenformadecélulascomplejas).

Las CNNs representan unmodelo profundomuy exitoso, y hoy en día sonempleadasengrancantidaddeaplicaciones,obteniendoporlogeneralmuybuenosresultados.Enparticularsonmuyusadasentareasdevisiónporordenador,yporellotambiénenanálisisdeimagenmédica,porloquesondegraninterésparaestetrabajo.Estáconstatadoqueparaestetipodeimágenessonlasredesmásrobustasyexitosasquehayporahora,comosedemostróenel2012,cuandounaCNNganóeldesafíodereconocimientodeobjetosdeImageNet[8]�,momentoapartirdelcualsolosehanlogradomejoras[3].

AlahoradedefinirunaCNNsepuededecirqueeseltipoderedneuronalpara el procesadodedatos conuna topología conocida y cuadriculada, comoporejemplo los datos de una imagen que conformanuna cuadrícula 2D formada porpíxeles. En esta definición está intrínseca una gran ventaja, el hecho de que lasentradas puedan ser de diferentes tamaños, algo en especialmuy útil cuando setrabajaconimágenes.

En cuantoa suestructura, lasCNNestán formadaspor tres tiposde capasdiferentes; las de convolución (CONV), las de agrupamiento y las totalmenteconectadas(fully-connectedlayers,FC).UnesquemamuytípicoeselquesepuedeverenlaFigura3,dondelaredestáformadapor5capasCONVconvariascapasdeagrupamientoyseguidasde3capasFC,aunqueestosnúmerospuedencambiar[7].Acontinuaciónseexplicacondetallecadaunadeestascapas.

Figura3.RedCNNformadapor5capasconvolucionalesconmax_pooling.Obtenidade[9].

1)Capasconvolucionales(CONV)

Laoperacióndeconvolucióneslaquedanombrealaarquitecturayseempleaenalmenos una de sus capas, tanto a la imagen completa como a los mapas decaracterísticasintermedias,generandonuevosmapasdecaracterísticas.TienetresprincipalesventajasquehacenqueelsistemadeAprendizajeProfundoresultemáseficiente:

Page 18: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

10

a) Lasconectividadointeraccionesdispersas.Enlugardehaberunparámetroporcada interacciónentrecadaentradaycadasalida,estosparámetrossecomparten, con lo que hay menos parámetros que interacciones. De estemodo losrequisitosdememoriasonmenores,ademásdequeseaprendencorrelacionesentrepíxelesvecinos.

b) La compartición de parámetros. Está ligada al concepto anterior; variasfuncionesdelmodeloempleanlosmismosparámetros.Seahorramemoria.

c) Lainvarianzaalalocalizacióndelobjeto.Derivadelaequivarianza,quehacereferenciaaquesilaentradacambia,lasalidatambiénlohaceenlamismamedida.

DebidoaestasventajasenalgunasocasionessereemplazanlascapasFCporcapasCONV,paraacelerarelprocesodeaprendizaje.EstosucedeporejemploenlastécnicasNIN(NetworktoNetwork)[10].

2)Capasdeagrupamientoodepooling

Lascapasdeagrupamientosondegranutilidadpuesproporcionanlalocalizaciónde las características en las imágenes cuandono esnecesario conocer lospíxelescorrespondientesaestascaracterísticasconexactitud.

Generalmentesesitúan trascadacapaCONVconelobjetivodereducir lasdimensiones de losmapas de características. Para ello, aplican una función a lassalidas más próximas a la salida de la red, modificando esta última. Se puedenemplear distintos de funciones (average_pooling, norm_pooling, etc), pero la másutilizadacondiferenciaeslademax_pooling[3],quereduceladimensionalidaddela entrada tomando para cada conjunto rectangular de tamaño fijo y escogido, elvalormáximode lospíxelesdeesaregión,yhaciendodeesevalorelnuevovalordelpíxeldesalida.Estosepuedehaceren1D,comoenelcasode laFigura4(a),donde un mapa de características de 4x4 queda reducido a 2x2 al aplicar unmax_pooling de 2x2; o en 2D, muy útil para el submuestreo de imágenes y depatches, representadoen laFigura4 (b), ydondesepuedeverqueelnúmerodecapas(64)permaneceintacto.

(a) (b)Figura4.Funcionamientodeloperadordemax-poolingenunmapadecaracterísticas1D(a)y2D(b).Imágenesobtenidasde[11]

Por sus múltiples usos en imágenes y sus ventajas de reducción dedimensiones e invarianza, las capas de agrupación son lasmás estudiadas de lostrestiposdecapas.Deesteintensoestudionacentresdistintosenfoques,cadauno

Page 19: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

11

condistintospropósitosyparadistintosprocedimientos,aunquesedefiendequelamejorprácticaescombinarlostresparalograrunbuendesempeñodelaCNN[3].

a)Pooling estocástico.Equivalentealmaxpooling,perosegeneranmuchascopias de la imagen de entrada, cada una de ellas con pequeñasdeformacioneslocales.Sunaturalezaestocástica,elescogeraleatoriamentelaactivación dentro de cada región de neuronas, hace que se solucione elproblemadeloverfittingquemuchasvecesprovocaelmax_pooling.b)Agrupamientoespacialdepirámides(SpatialPyramidPooling,SPP).EnestecasolaúltimacapadeagrupamientosereemplazaporunaSPP,capazdeextraer representaciones de longitud fija de imágenes, de manera que seomitelalimitaciónderequerirunaimagendeentradadetamañofijo.Esunaestrategia que se aplica de forma general a las CNN para incrementar surendimiento.

c)Def-pooling.Esuntipodecapaqueseintroduceenalgúnpuntodelaredpara poder trabajar con las deformaciones de los objetos de forma máseficiente, lo cual es un desafío en el campo de visión por ordenador, yparticularmenteenelreconocimientodeobjetos.

3)Capastotalmenteconectadas(FC)Estas tipo de capas se sitúan tras la última de las capas de agrupación paraconvertirlosmapasdecaracterísticas2Denunvector1D,muchomásútilparalarepresentacióndeestas característicasmásadelante.Las capasFC trabajancomouna red neuronal tradicional y contienen aproximadamente el 90% de losparámetrosdelared[7].

El vector 1D de salida de la red suele ser de longitud predefinida, porejemplo para una tarea de clasificación de imágenes será de longitud igual alnúmerodecategoríasquesetengan.Otraopcióncomúnenelanálisisdeimágeneses tomarlo comounvectorde características1Dparaunprocesadoposterior (loquemásadelantesellamaráextraccióndecaracterísticas).

Laprincipal desventajade estas capas es la gran carga computacional quegeneranalahoradeentrenarlas,debidoalacantidaddeparámetrosquemanejan.Porellomuchosautoresdefiendendisminuirlasconexionesentrelasneuronasdeestascapasempleandoalgúntipodemétodo,comoenelcasodeGoogleLeNet[13],reducirlasennúmero,oinclusoeliminarlas[3].

Finalmente se explica el entrenamiento de las CNNs, pues es la partemáscomplicadacuandosetrabajaconestetipodearquitecturas.Sisedecideemplearuna estrategia supervisada, al tener que hacerse la propagación por toda la redhaciadelanteyhaciaatrás,senecesitanordenadoresmuypotentes.Así,sesugiereemplearalternativascomopuedenserDropout[14 �][15] yDropConnect[16 �],enlasque el algoritmo omite la mitad de los detectores de características para que elmodelogeneralicemejor,inicializarlaredconparámetrospre-entrenadosenlugarde aleatorios, ajustar los parámetros de la red a la tarea para la cual se quiereemplear, y finalmente aplicar técnicas de aumento de datos,muy empleadas a lahoradetrabajarconimágenesmédicaspuesalivianlanecesidaddetenergrandescantidadesdedatosetiquetados.DelaumentodedatossehablaráenelCapítulo4,si bien cabe mencionar en este punto que gracias a ellas se puede realizar un

Page 20: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

12

entrenamiento no supervisado, y combinarlo con el supervisado. No obstante,existenmásestrategiasquesedetallaránmásadelante.

PorlosmúltiplesusosqueselesdaalasCNNseneldominiodelavisiónporordenador, existen distintos modelos de CNNs muy populares, de los que seresaltanlossiguientes:

AlexNet es una de las arquitecturas CNN más conocidas, que sigue laestructuratípicade5capasCONVy3FC.Estemodelofueelresponsabledelaugede las CNNs cuando se entrenó en ImageNet obteniendo resultados remarcables[17�],yhoyendíasesigueempleandoparalatareadeclasificacióndeimágenes.Enella se pueden encontrar distintas técnicas de aumento de datos basadas entransformacionesgeométricas.Aunasí,presentael inconvenientedequerequiereuna resolución fijade imagendeentrada (224x224, en concreto), ademásdequetodavíanoexisteunaclaracomprensióndeporquéfuncionatanbien.

Clarifai es otro modelo que surgió al intentar dar explicación a cómofuncionaban internamente las capas intermedias de las arquitecturas CNN. Suestructuraeslaconvencionalytambiénlogramuybuenosresultados,mejoresquelosAlexNetenlaclasificacióndeimágenes,comoparaImageNet.

SPPoRedconAgrupamientoEspacialdePirámidesesotromodelocuyamotivación es evitar el requisito de una resolución fija de imágenes de entrada,paralocualusaSPPs.Al introducirselascapasSPPendistintosmodelosdeCNNs[18] �sehalogradoaumentarlaprecisióndelosmismos,porloqueestaestrategiadeagrupaciónhalogradounagranpopularidad.

VGG es una CNNprofunda empleada para el reconocimiento de imágenes,queen lugardeemplear5usaentre13y15capasCONV,deahí suprofundidad.VGG obtiene muy buenos resultados a la hora de clasificación de imágenes,demostrando así que el incrementar la profundidad de la red puede ir unido aaumentar su precisión. En el caso de VGG esto es posible porque emplea filtrosconvolucionalesmuypequeñosentodaslascapas.Otraventajaqueaportaesunamayorcapacidaddegeneralizaciónparaotrosconjuntosdedatos[19].

GoogLeNetesotraCNNtodavíamásprofundaqueVGG.Estáformadapor22capasCONV,yporunaúnicacapaFC.Alemplearestaredentareasdeclasificacióndeimágenestambiénseobservaunaumentoenlaprecisióndelosresultados.

AunquelosresultadosobtenidosporestasCNNsencuantoalaclasificaciónde imágenes sonmuy satisfactorios, en estos dos últimos años han surgido otrasarquitecturas profundas que buscan mejorarlos, como son Inception [20] [21],ResNet [22], y DenseNet [23]. Estos tres modelos resultan particularmenteinteresantes para este trabajo, pues la arquitectura que se pretende diseñar estáfundamentada en ellos. Por ello, se detallará la estructura de estas redes en elCapítulo4.

Finalmente,comentarotrosdostiposderedesquederivandelasanteriores,y que tienen otras aplicaciones, en concreto la detección de objetos y lasegmentación semántica. Las RCNN (regiones con características CNN) sonbásicamenteunacombinacióndeCNNsconunSVMlineal(SupportVectorMachine)empleadasparadetectarobjetos.Comienzanporgenerarmúltiplespropuestasdeobjetos o candidatos, de los cuales extraen sus características usando la CNN, yfinalmente clasifican cada candidato con el SVM en categorías. Esta estrategia de

Page 21: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

13

reconocimiento por regiones consigue muy buenos resultados, y por ello esampliamente usada en visión por ordenador y también en imagen médica. Sinembargo, su rendimiento está limitado tanto por el hecho de necesitar la red laubicación del objeto en la imagen como por la gran cantidad de candidatos quegenera.AdiferenciadelasRCNNs,lasFCNs(redcompletamenteconvolucional)seutilizanprincipalmenteparalasegmentaciónsemántica,ysonútilesparaeliminarlarestriccióndelaresolucióndelaimagen.

2.2.2.MáquinasdeBoltzmannrestringidas(RBMs)LasRBMssonuntipoderedesneuronalesdeestocásticagenerativa.Sonmodelosbasadosen“energía”(energy-basedmodels),esdecir,modelosconuna funcióndeenergíacompuestaporvarios términos,dondecada terminosecorrespondeaunfactor en la distribución de probabilidad. Cada uno de estos términos puede serentendido como un “experto” que determina si una restricción en concreto sesatisface.Son,portanto,modelosprobabilísticosenlosquelasalidaseexpresaenfuncióndeprobabilidades,locualesventajosoparalainterpretaciónhumana.

Hoy en día el término RBM se emplea de forma generalizada, paradenominaracualquiermodeloconvariableslatentes,lascualesseagrupanenunasola capa e interaccionan con el resto de capas parametrizadas por matrices,aprendiendodeestamanera larepresentaciónde laentrada.Sepuedenentendermásbiencomomodelosgráficosusadosparacomponeryentrenarotrosmodelosde aprendizaje profundo, y no como tales, aunque comparten diversascaracterísticas con ellos (i.e. sus unidades se organizan en capas, la conectividadentrecapassedescribepormediodeunamatriz,laconectividadesrelativamentedensa,etc.).

EncuantoalasaplicacionesdelasRBMsdestacanlasegmentaciónfacialyelreconocimientotelefónico,sibiensususosenimagenmédicayengeneralenvisiónporordenadorestánmuchomásreducidosqueenelcasodelasCNNs.

Todos losRBMspertenecenal conjuntodeMáquinasdeBoltzmann, con laprincipal modificación de que exigen que las unidades visibles estén en igualproporción que las ocultas, formando así un gráfico bipartito. Esta división seimponeparahaceralosalgoritmosmáseficientes.LasprincipalesvariantesdelasRBMsaconsiderar,lasquemásseempleanentareasdevisiónporordenador,sonlastresquesiguen,cuyaprincipaldiferenciaeseltipodeconexionesquehayentrelasunidadesqueformanlasdistintascapas.

1) Redesdecreenciaprofunda(DeepBeliefNetworks,DBNs)LasDBNsfueronunode losprimerosmodelosnoconvolucionalesquemostraronunbuenfuncionamientoalahoradeentrenararquitecturasprofundas.Desdeesemomento,sehainvestigadocómotrabajarconellasymejorarsusresultados,perolas constantes dificultades encontradas en su etapa de entrenamiento han hechoquesuusohayacaídoconelpasodelosaños.

La arquitectura de las DBMs se caracteriza por estar formada por variascapas con variables latentes, que son las capas ocultas, y típicamente binarias,ademásdelacapadeentradayladesalida,quepuedenserbinariasoreales.Estascapas están conectadas solo entre neuronas de capas vecinas, pero nunca entreunidades de la misma capa, y son no dirigidas entre las dos primeras capas y

Page 22: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

14

dirigidashacia la capamás cercana a losdatos en el casode todas lasdemás. Lasalidadeestasredesessiempreenformadedistribucióndeprobabilidadconjuntasobredatosyetiquetasobservables.

Para entrenarlas primero hay que inicializar capa a capa la red, y luegoajustar todos los pesos de forma conjunta con las salidas deseadas. Esteprocedimientonosupervisadopresentadosventajas;primeroque laredsiemprese inicializa de una manera adecuada, y segundo, que no se requieren datosetiquetadosparaentrenar.Porelcontrario,tieneladesventajadeimplicarunaltocostecomputacional.Además,sisepiensaenlastareasrelacionadasconvisiónporordenador,tambiénhayqueconsiderarelproblemadequenotienenencuentalaestructura2Ddelaimagendeentrada,yporestosdosmotivosesporloquesuusoesmínimoenlosmodelosmásrecientes.2) MáquinasProfundasBoltzmann(DBMs)LosDBMs,adiferenciadelosDBNs,sonmodelostotalmentenodirigidosysiempreconmásdeunacapaocultaovariablelatente,siendocadaunadeellasmutuamenteindependientes y condicionadas por las capas vecinas (las capas pares soncondicionalmente independientesde lascapas imparesyviceversa).Lasunidadesqueconformanestascapassuelenserbinariasperotambiénexistelaposibilidaddeque sean reales. El entrenamiento de estas redes es análogo al de las RBMs, porcapas, aunque gracias a su estructura se consiguen mejoras en la tarea declasificación,pudiendosertodavíamásacrecentadassiserealizanmodificacionesalahoradepre-entrenarydeentrenar.Comodesventajadeestavariantedestacasucomplejidad temporal, algo poco deseable a la hora de trabajar con grandesconjuntosdedatos.

3) Modelosdeenergíaprofunda(DEMs)DelastresvariantesaquíexplicadasdelasRBMs,losDEMssonlasmásrecientes.Adiferencia de las anteriores solo presenta una capa de unidades ocultas latentes,paraasílograrunentrenamientomásrápidoyeficiente,entrenandotodaslascapasa la vez yno capaa capa.Esto redundaenmejorasde clasificación cualitativas ycuantitativas.

2.2.3.Autocodificadores(AEs)La formamás sencilla de entenderun autocodificador es pensar enuna redmuysimple, formada por tres capas, una de entrada, una oculta y una de salida, yentrenadaparacopiarsusentradasasussalidas.Lógicamente,sudiseñonobuscahacerunacopiaexacta.Porel contrario, la capaoculta imponerestriccionesparaque se copie solo aquella información de entrada que sea relevante, priorizandounos aspectos de los datos, aquellos que resultan más útiles, sobre otros. Así,aunqueasimplevistalasalidaparezcaidénticaalaentrada,éstahasidoreducida,selehaneliminadocaracterísticasquenoeranrelevantes.Deformamásespecífica,para producir esta reconstrucción se sigue un proceso en dos etapas, unacodificadora y otra decodificadora, y a medida que se ejecuta el proceso se vaoptimizando alminimizar el error de reconstrucción, para obtener finalmente lanuevafunciónaprendida.Caberesaltarqueporelhechodequeelautocodificadorbusca copiar la entrada en la salida, ambas tienen que ser de las mismasdimensiones.

Page 23: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

15

Estabrevedescripcióndelaestructuradeunautocodificadorpuedellevarallector a recordar el funcionamiento de una red feedforward, y efectivamentepuedenserentrenadasde lamismamanera.Además, amedidaque seentrenaalautocodificadorhayqueircomparandolasactivacionesdelaredoriginalconlasdelaredreconstruida.

Tradicionalmenteseusanparareducirladimensióndelascaracterísticasoparaelaprendizajede lasmismas,peroactualmentetambiénseestánempleandopara tareas de recuperación de información y como modelos generativos decaracterísticas. La generación de características es un paso de vital importanciacuando se buscadetectar y clasificar lesiones en imágenesmédicas, y es esencialrealizarlo con criterio para obtener buenos resultados. Para ello, en los últimosaños se han sustituido los autocodificadores simples por autocodificadoresprofundos (DAEs), pues comoya seha explicadomás capaspuedenobtenermáscaracterísticas, y tendrán un mayor potencial para averiguar las característicasdiscriminatoriasyrepresentativasdeaquellosdatossinprocesar.ParaentrenarlosDAEsprimerosepre-entrenanconpesos inicialesqueseaproximena lasoluciónfinalyluegoseentrenanconunavariantedelalgoritmodeback-propagation.

Cuando unas líneas más arriba se explicaba la estructura básica de unautocodificador,sehablabadeeliminarciertascaracterísticasdelaentrada.Lograrestepropósitoimplicaqueladimensióndelacapaocultaseamenorqueladelascapasdeentradaysalida,yes loqueseconocecomoautocodificador incompleto(sparse autoencoder). Aunque esto es lo más común, también se puede tener unautocodificador sobrecompleto (overcomplete autoencoder), en el caso de que lacapaocultatengaunamayordimensiónquelacapadeentrada.Enestasituaciónypormuchoqueseejecuteelalgoritmo,noseobtendráningunacaracterísticaútilosalientedelosdatosdeentrada.

Parafinalizarestasecciónsedescribenlastresvariantesmásconocidasdeestetipodemodelos:1) Autocodificadordisperso(SparseAutoencoders,SAE)Un autocodificador disperso es aquel que a la hora de entrenar asigna unapenalizacióndispersa(sparsitypenalty)alascapasocultas,quesesumaalerrordereconstrucción. Su principal uso es aplicarlo a datos sin procesar para extraer ygenerardecaracterísticasqueluegoseránempleadasenotratarea,habitualmenteenladeclasificación.

Lasventajasqueproporcionaestaarquitecturasontres.Primerohacealascategoríasmásfácilmenteseparables,porotrolado,lograquelosdatoscomplejosse interpreten demaneramás fácil, y finalmente funciona de igual forma que elsistemadevisiónbiológico,yporelloesdeutilidadparaaplicacionesenrelaciónconelmismo.

2) Autocodificadorconeliminaciónderuido(DenoisingAutoencoders,DAE)

De hacer de los autocodificadoresmodelosmás robustos al ruido surgieron estetipo de arquitecturas. Su funcionamiento se basa en que, dada una copia de laentradaalaqueselehaañadidoalgúntipoderuido,eliminanesteruido,lograndorecuperarlaentradacorrectadelaversióndañada,enlugardeúnicamentecopiarlaentrada.Estoseconsiguealcambiareltérminodelerrordereconstrucciónenlamatrizdecoste.

Page 24: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

16

3) Autocodificadorcontractivo(ContractiveAutoencoders,CAE)LosCAEsbuscan,al igualque losDAEs,aprender representacionesmásrobustas,consiguiendo que el proceso de extracción de características sea resistente apequeñasperturbacionesenlaentrada.Estoselograalañadirunapenalizaciónalafuncióndelerrordereconstrucción,conloquesecapturanmejorlasdireccionesdevariacióndelosdatos.

2.2.4.Codificacióndispersa(sparse-coding)Los modelos de codificación dispersa buscan, al igual que los autocodificadores,extraer características de unos datos de entrada para describirlos de formacompleta. Son modelos lineales de aprendizaje no supervisados, que funcionanañadiendo ruido, normalmente gaussiano, a los datos de entrada, para obtenerreconstruccionesdelasmismas.Elentrenamientoquesesueleaplicaresporfases,alternandoaquellasquecodificanlosdatosconotrasparalareconstruccióndelosdatosdadalacodificación.

La principal ventaja de estos métodos es que no producen errores degeneralización,yporlotantoresultansermejoresgeneralizadorescuandoseusancomoextractoresdecaracterísticas, incluyendoloscasosenlosquesedisponedemuypocosdatosetiquetadosparaentrenar.Estoesdegranutilidadaltrabajarconimágenes médicas, dado que no siempre van acompañadas por etiquetas. Por elcontrario,comodesventajasseencuentranlagrancantidaddetiempoqueempleaenhacerloscálculosyladificultaddesuetapadeentrenamiento.

Laextraccióndecaracterísticaseslaprincipalaplicacióndelosmodelosdecodificacióndispersa,yaqueademásdelaventajadenorequerirapenasdedatosetiquetados, tiene otras muchas como por ejemplo: reconstruye mejor losdescriptoresalcapturar lascorrelacionesentredescriptoressimilares;capturademaneraeficazlaspropiedadessalientesdelasimágenes;funcionadelmismomodoqueelsistemavisualbiológico;trabajamuybienconlospatchesdeimágenes,unaestrategiadeentrenamientoderedesprofundasparadetectarobjetosdelaquesehablará más adelante, por ser estos señales dispersas; y los patrones concaracterísticasdispersassonmáslinealmenteseparables.

Para finalizar, y sin entrar en detalle, se mencionan algunos de losalgoritmosmásrepresentativosdecodificacióndispersa.

1) SPM de codificación dispersa (ScSPM): Es una extensión de las yamencionadasSPMs.Conellasseconsiguequeelerrordereconstrucciónseamuchomenor,perotambiénseignoraladependenciamutuaentrelascaracterísticaslocales,pueslastrataporseparado,locualnoesventajoso.

2) Laplacian Sparse Coding (LSC): Esta variante mejora a la ScSPM alseleccionar los centros de los cluster de forma que sean similares,lograndounasolucióndemayorrobustez.

3) Hyper-graph Laplacian Sparse Coding (HLSC): El HLSC es una extensióndelLSCdonde lasimilitudentre lasdistintas instanciassedefineporunhípergráfico,consiguiendoconestamejoramayorrobustez.

Page 25: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

17

2.2.5.ComparaciónentremodelosCon el fin de comprender la clasificación que se ha realizado de las distintastécnicas de Aprendizaje Profundo, se resumen las propiedades de las cuatrocategorías establecidas a modo de tabla comparativa, de forma general (no setienenencuentahallazgosparticulares).

Propiedades\Modelo CNNs RBM

sAutocodificador Codificacióndispersa

Generalización SI SI SI SI

Aprendizajenosupervisado NO SI SI SI

Aprendizajedecaracterísticas1 SI SI NO

Entrenamientoentiemporeal NO NO SI SI

Predicciónentiemporeal2 SI SI SI SI

Comprensiónbiológica NO NO NO SI

Justificaciónteórica3 SI SI SO SI

Invarianza4 SI NO NO SI

Conjuntodeentrenamientopequeño5 SI SI SI SI

Tabla1:Comparaciónentreloscuatroprincipalesgruposdemodelosdeaprendizajeprofundo.

3.AplicacionesdelAprendizajeProfundo En este apartado se detallan las aplicaciones y logros de los algoritmos deAprendizaje Profundo en visión por ordenador, y a continuación se explican condetalle lasmismas tareas pero enfocadas al análisis de imágenesmédicas (MIA),dondeseapreciaráelclaropredominiodeusodelasCNNs.

La visión por ordenador ha sido, desde los orígenes del AprendizajeProfundo una de las tareas conmás investigación, por sermuy sencilla para loshumanosperomuycostosoparalosordenadores.Enconcretolastareasdondemásse ha trabajado han sido el reconocimiento de objetos y el reconocimiento decaracteresópticos.Lainvestigaciónenestecamposehavistomotivadaasuvezporsusmúltiplesaplicaciones,quevandesdeelreconocimientofacialhastalacreacióndenuevashabilidadesvisuales[2].

Lamayoríadealgoritmosempleadossecentranenelreconocimientodeobjetosoensudetección,loquesignificainformarquéobjetosestánpresentesenuna imagen, anotar los objetos identificados en la imagen de algunamanera (i.e.

1Aprendizajedecaracterísticas→capacidaddeaprenderautomáticamentecaracterísticasbasadasenunconjuntodedatos.2Entrenamientoentiemporeal,predicciónentiemporeal→serefierenalaeficienciadelosprocesosdeaprendizajeeinferencia,respectivamente.3Comprensiónbiológica,justificaciónteórica→Hacenreferenciaasielenfoquetienebasesbiológicassignificativasofundamentosteóricos,respectivamente.4Invarianza→Sielenfoquehasidorobustoatransformacionestalescomorotación,escalaytraducción.

Page 26: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

18

cajasdelimitadoras, contornos, etc.), transcribir una secuenciade símbolosdesdeunaimagen,oetiquetarcadapíxelenlaimagenconlaidentidaddelobjetoalcualpertenece.Sondistintasaproximaciones,perotodasellasconelfindedetectarunaformauobjeto.

El punto común del que parten todas las aplicaciones de visión porordenadoresbuscarprocesardeunaseriedeimágenes.Paraprocesarunaimagencon un fin, primero se debe adecuar y/o pre-procesar, buscando así lograrresultadossiempremejores.Enestetrabajosehablaráexclusivamentedelostiposdepre-procesamientocomunesenimagenmédica,yestoseharáenelCapítulo4.

3.1.AplicacionesdelAprendizajeProfundoenvisiónporordenadorA continuación se resumen las principales aplicaciones de los métodos deAprendizaje Profundo en visión por ordenador, comenzando por la tarea máspopular,ladeclasificación.Nosedetallaránenprofundidadpuestoqueestoseharáparasuaplicaciónenparticularalanálisisdeimagenmédica,líneasmásadelante.

3.1.1 ClasificacióndeimágenesLaclasificacióndeimágenesconsisteendadounconjuntodeimágenes,etiquetaracadaunadeellasconunaprobabilidaddequepertenezcaaunaclaseoaotra.

LasCNNssedeclararonenel2014comolasarquitecturasmáseficientespara esta tarea, cuando la mayoría de participantes de ILSVRC 2014 [24]lasescogieron como base para sus modelos de clasificación, obteniendo buenosresultados.ConelmodelodeSPP-netseconsiguióeliminarlarestriccióndequelaimagendeentradatuvierauntamañofijo,loqueevidentementefueungranavancey mejoró la precisión de todo tipo de arquitecturas basadas en CNNs. Otracaracterísticaquehizoalasredesmejoresfueelaumentarsuprofundidad,comoseha visto con GoogLeNet, aunque estos últimos modelos son más susceptibles aloverfittingyalunderfittingenelcasodetenerpocosdatosdeentrenamientoopocotiempo,problemascuyasolución todavíaseestábuscando,aunque todoapuntaausaslatécnicadelDeep-Image,quepermiteporunladousarimágenesdedistintostamañosyporotroaumentarelnúmerodedatos.

3.1.2 DeteccióndeobjetosEsunatareaquevaunidaladeclasificacióndeobjetos,yparaestatambiénseusaunaimagencomoentradaysesuelenestimarlasetiquetasdelasclasesdeobjetosquetieneesaimagen;peroademássebuscaobtenerlaposicióndelosobjetos.Porlotanto,nosolodainformaciónacercadelaexistenciadeunaclase,sinotambiénacercade su localización.Para lograr el localizar losobjetos se empleandistintasestrategias, siendo la más popular la de usar una ventana de detección que sesolapeconelobjetoalmenosenun50%.

En tareas de visión por ordenador nomédicas, con imágenes naturales, elconjunto de datosPASCALVOC, con 20 clases, esmuypopular y suele emplearseparalaevaluacióndelatareadedetección.

Porcompartirmuchascaracterísticasenelproceso,yalavistadelosbuenosresultados que obtenían, se optó por usar CNNs para la detección de objetos. Deaquísurgió laarquitecturaDetectorNet[25],análogaaAlexNetperoconunacapa

Page 27: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

19

deregresióncomoúltimacapa.TrasellaaparecióDeepMultiBox,paraelmanejodemúltiplesinstanciasdelmismoobjetoenunamismaimagen.

Como se avanzaba unas líneasmás arriba, el esquema general para lograrunadeteccióndeobjetosexitosaesgenerarungrupoconmúltiplescajascandidatasyclasificarlasusandounaCNN,enconcretounaRCNN,queserecuerdaconsistíaenunaCNNseguidadeunSVMlineal,paraqueasílaspropuestasdecandidatosseanselectivas.LasRCNNsson labasede lamayoríadealgoritmosempleadosenestatarea de detección, y los constantes estudios que buscanmejorar su desempeñosuelenhacerlocentrándoseenacelerar losprocesosdeentrenamientoypruebaoenmejorar laprecisiónde lared.Losprimerospretendenobtenerdeteccionesdeobjetos de forma más rápida, pues al generar muchos candidatos soncomputacionalmente costosos al tener que procesar cada uno de ellos porseparado. Los segundos, de mayor interés para este estudio, buscan mejorar laprecisióndelalocalizacióndelosobjetos,yproponenemplearotrastécnicasparalograrlo. Esto es algo de vital importancia en la detección de lesiones y tumoresparasuposteriorclasificaciónosegmentación.

Elgranretoalahoradedetectarobjetosesladificultaddeobtenerimágenesetiquetadasparaungrannúmerodecategorías,yaquenoesbaratonifácillograrque las etiquetas de las imágenes estén a nivel de regiones o de píxeles. Esteproblema se acrecienta todavíamás en bases de datos de imágenesmédicas. Lassolucionesqueseestánexplorandoproponenusararquitecturasmásprofundas,enparticularelalgoritmodeAdaptacióndeDetecciónProfunda(DDA)ylosmodelosConceptLeaner [26] y BabyLearning [27]. Estas dos aproximaciones no necesitanhacerunaanotaciónmasivadeconceptosvisualesparaladeteccióndelosobjetos,lo cual es una gran ventaja pues conseguir imágenes no explícitamente anotadaspor humanos pero que compartan algunas características, que es lo que empleaConceptLearner, es algo poco costoso; y BabyLearning solo precisa unas pocasmuestrasetiquetadas,entremuchassinetiquetar,paracadacategoríadeobjetos.

3.1.3 ReconocimientodeimágenesEl reconocimiento de imágenes consiste en buscar aquellas imágenes quecontenganunobjetoounaescenasimilaralaimagendeentrada.

La estrategiamás empleada sonmodelos basados en CNNs,motivado unavezmáspor losbuenos resultadosdeAlexNeten clasificaciónde imágenes.Estosbuenos resultados sugieren que las características que resultan en las primerascapasdeunaCNNparaclasificaciónde imágenespuedenserbuenosdescriptorespara la clasificaciónde lasmismas, y los resultadosobtenidos lodemuestran. Sinembargo, el decidir qué capa de la red es mejor utilizar, cuál tiene un mayorimpacto, es algo que permanece abierto, además de ser cambiante según elconjuntodedatosqueseestéempleando.

LomástípicoesencontrarCNNsconvariacionescomoCNNsprofundaspre-entrenadas con grandes conjuntos de datos, utilizadas para la extracción decaracterísticasen tareasCBIR(identificaciónde imágenesbasadaencontenido)yluegore-entrenarlasconaprendizajeporsimilitud.Tambiénsesueleencontrarotravariantequeextraeprimerotrozosdelaimagenqueseparezcanalobjetoconundetectordeobjetosgenéricoyluegoextraecaracterísticasdecadatrozodelobjeto

Page 28: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

20

con el modelo preentrenado de AlexNet. Estrategias de este tipo se usan paraconjuntosdeimágenesmédicas,yestádemostradoquelaprecisiónaumenta.

Además de CNNs para el reconocimiento de imágenes también se usandescriptores holísticos, en los cuales la imagen completa es mapeada a un solovectorconunmodelodeCNN.

3.1.4 Segmentaciónsemántica La segmentación semántica asigna una etiqueta o categoría a cada píxel de unaimagen. Para ello se emplean, de nuevo, CNNs, pues son capaces de hacer estasprediccionesaniveldepíxelenconjuntosdedatosmuygrandes.Algofundamentalenlasegmentaciónsemánticaestenerunamáscaradesalidaconunadistribuciónespacial2D.LosprincipalesmétodosbasadosenCNNsqueseempleansonlostresquesiguen.

• Segmentación basada en la detección. Consiste en segmentar lasimágenesapartirdelasventanascandidatasqueresultandeladeteccióndeobjetos. Para el primer paso se usan RCNN y SDS y para el segundo seemplean aproximaciones tradicionales de aprendizaje de máquina. Suprincipal desventaja es el gran coste de detectar del objeto. Otro métodopara evitar extraer regiones de imágenes sin procesar es el CFM(ConvolutionalFeatureMasking),queextraelaspropuestasdirectamentedelosmapasde características, lo cual resultamuyeficiente.Enambos casoshayquetenercuidadopuesloserrorescausadosporlasdistintaspropuestasyporladeteccióndelobjetosuelenpropagarseenelpasodesegmentación.

• SegmentaciónbasadaenFCN-CRFs.Esunaestrategiamuypopularparala segmentación semántica, existiendo distintas variantes con pequeñasmodificacionesqueobtienenbuenosresultados.

• Anotaciones débilmente supervisadas. El concepto de anotacionesdébilesserefiereaquelainformaciónquesetienedelosdatosnoesaniveldepíxel,sinoaniveldeimagen,porejemplo.Estosmétodostienenbuenosresultadossisecombinanunpequeñonúmerodeimágenesdelprimertipoconungrannúmerodeimágenesdelsegundo.

3.1.5 EstimacióndelaposehumanaLa estimación de la pose humana tiene como objetivo localizar las articulacioneshumanasapartirdeimágenesinmóvilesoapartirdesecuenciasdeimágenes.Estoes importantepara tareascomo lavideovigilancia,elanálisisdelcomportamientohumano o la interacción hombre-máquina (HCI), etc. Resulta una tarea muydesafiantedebidoalaampliavariabilidadenlasaparienciashumanas,alosfondoscomplicadosdelasimágenes,yafactoresderuidocomolailuminaciónolaescala.

A pesar del interés que puede suscitar esta tarea, se queda fuera de lasaplicacionesmédicasdeestosalgoritmos.Porellosolosemencionaránunpardetécnicasque seempleanparaestimar laposehumanaen imágenesestáticas,quesonlasdeprocesadoholístico,comoelDeepPose,queprocesalaimagendeformaglobal,y lasdeprocesadobasadoenpartes,queproporcionanmejoresresultadosaldetectarlasdistintaspartesdelcuerpodemaneraindividualyluegoincorporarlainformaciónespacialdelasmismas.

Page 29: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

21

Finalmente,mencionarquelalíneadetrabajoaseguireslograrincorporarcaracterísticasdemovimientoparaque así puedanusarse estas técnicas tambiénenvídeos,ynosoloenimágenesestáticas.

AntesdepasaratratarcondetallelasaplicacionesmédicasdelAprendizajeProfundo, se resumen brevemente otras cuatro tareas genéricas del campo devisiónporordenador.Estasson:

- Reconocimiento de voz. Consiste enmapear una señal acústica con unadeclaracióndeunhablanteensucorrespondiente secuenciadepalabras.Esuna tarea conhistoria, queempezóalrededorde1980,perono fuehasta el2009 cuando se comenzó a utilizar modelos de Aprendizaje Profundo nosupervisado, en concreto RBMs, que luego quedaron en desuso siendoreemplazadasporCNNsyRNNsprofundas.

- Procesado del Lenguaje Natural (NLP): Consiste en el uso del lenguajehumano,endiferentes idiomas,porpartedeunordenador(i.e.enmáquinastraductoras).Engeneralparadesempeñarestetipodetareassepuedenusarredes neuronales genéricas, pero para lograr resultados realmente buenosconviene aplicar ciertas estrategias, comopor ejemplodeprocesamientodedatosporsecuencias(depalabras,decaracteresodebytes).

-Sistemasderecomendación:Todavíaenfasedeinvestigaciónydesarrollo,los sistemas de recomendación son sistemas que hacen recomendaciones ausuarios potenciales o consumidores, para lo cual se basan en la asociaciónentre un usuario y un producto y prediciendo la probabilidad de que secompre ese producto. Este problema se modela como un problema deaprendizajesupervisado,puessetieneinformaciónsobreelusuarioysobreelproducto, y a partir de esa información el algoritmo tiene que hacer unapredicción,porregresiónoclasificaciónprobabilística.

- Representación de conocimiento, razonamiento y respuestas apreguntas: Es otra aplicación que todavía está en fase de investigación ydesarrollo, pues todavía no existen sistemas que capten adecuadamente lasrelacionesentrepalabrasyhechos.

3.2.AplicacionesenimagenmédicaTrashaberrevisadobrevementelasaplicacionesenvisiónporordenador,ellectordebedeestaryaconcienciadodelpotencialquetienenlastécnicasdeAprendizajeProfundo.Llegadosaestepunto,sequierehablardecómosepuedenaplicar,ydecómo se están aplicando, estos algoritmos para analizar imágenes médicas,concienciándole así de lasmúltiples ventajasqueproporcionan.Para ello seharáunarevisióndelestadodelartetantodelastareas(Figura5)comodelosórganosen losque se estánaplicando lasCNNsydemásalgoritmos.Tras ello seprestarátotalyúnicaatenciónasusaplicacionesrelativasalcáncerdemama.

Page 30: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

22

Figura5:Esquemadelastareasdeanálisisdeimagenmédicadondeseaplicanmétodosde

AprendizajeProfundo.

a)Clasificación:“Accióndeclasificar-Ordenarodividirunconjuntodeelementosenclasesapartirdeuncriteriodeterminado-”

-Clasificacióndeimágenes(exámenes):La clasificación de imágenes es una de las tareas médicas a las que más hacontribuidoelAprendizajeProfundohastaelmomento,pornodeciralaquemás.Porello,seencuentranmultituddetrabajosenimágenesdedistintasmodalidades(CT,MRI,US)yparatipotododepartesdelcuerpo(i.e.cerebro,pulmones,mamas,retina,etc.)[4].

El esquema habitual de la clasificación de imágenes comienza por tenercomoentradaunconjuntodemuchasimágenes,loqueseríaunexamenrealizadoaunpaciente,ycomosalidaunaúnicavariabledediagnóstico,porejemplo,decirsiunaciertaenfermedadestápresenteono.Caberesaltarelhechodequeelconjuntode imágenes (el examen) se toma como una sola muestra, lo que hace que elconjuntodedatossereduzcaenormementeencomparaciónconlosformadosporimágenesnaturalesnomédicas.

Acontinuación,aesteexamendeentradaseleaplicandistintastécnicasquesuelen basarse en Aprendizaje de Transferencia, por medio de redes pre-entrenadas en conjuntos de imágenes naturales para la extracción de lascaracterísticas,obienajustandoestasmismasredespre-entrenadasa lospropiosdatosmédicosquesetienen.Encualquiercaso,resultaventajosoenelsentidodequeevitaelpasodeentrenamientodelared.

Las arquitecturasque se emplean típicamenteparadesempeñar esta tareasonSAEs,RBMs,ambasentrenadasdemaneranosupervisada,yCNNs,siendoesteúltimotipodered lamásutilizadaen losúltimosaños(un76,6%de losartículospublicados entre 2015 y 2017 lo confirman [4]). Además, el uso de CNNs hademostrado tener un desempeñomuy bueno, llegando a desafiar la precisión deexpertoshumanos.

Tareas

Clasiticación Deimágenes/exámenes

Deobjetos/lesiones

Detección Deórganos,regionesypuntosdereferencia

Deobjetosylesionesotumores

Segmentación Deórganosysubestructuras

Delesionesytumores

Registro

OtrastareasRecuperacióndeimágenesbasadaencontenido

Generacióndeimágenesymejoría

Page 31: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

23

Recientementetambiénsepuedenencontrar,comoestrategiaalternativaaluso de redes pre-entrenadas, artículos donde se emplean redes propias,construidas por los propios autores de los artículos. Esta estrategia de diseñopropioesprecisamenteloquesebuscahacerenestetrabajo,comoseplasmaenelCapítulo4.

-Clasificacióndeobjetos(lesiones):Otro tipo de clasificación es aquella realizada sobre una única imagen, y no a unconjunto,conelobjetivoelclasificarpequeñaspartesdedichaimagenendosomásclases. Para ello, las partes a clasificar ya tienenque estar identificadas, bienporunaetapapreviadelaredomanualmente.Comopartesdelaimagenuobjetossehacereferenciaatodotipodeestructurasanatómicas,lesiones,tumores,etc.

Para que esta tarea sea realizada con éxito es de gran importancia tenertantoinformaciónlocaldelpropioobjetoaclasificarcomoinformacióndelcontextoglobal,deloquerodeaadichalesión.Sepuedeentenderestanecesidadhaciendolacomparación con unmédico, que si solo ve un trozo de una imagen no va a sercapaz de realizar un diagnóstico preciso. Sin embargo, tener ambos tipos deinformación es algodifícil a la horade trabajar con arquitecturasdeAprendizajeProfundo, y por ello se propone como solución combinar arquitecturas,normalmente una CNN con otra CNN o una CNN con una RNN, de forma que sepuedanprocesargrandescantidadesdeinformación,grandesimágenes.

Otrohándicapalahoradeclasificarlesioneseselincorporarlainformación3D de las imágenes. Muchas de las redes que hay hasta ahora han sidodesarrolladas específicamente para problemas de visión por ordenador, y por lotantoparaimágenes2D,ynopuedenmanejardeformadirectainformación3D.Elintegrarinformación3Desalgointeresanteporqueestádemostradoquemejoraengranmedida la tareade clasificación, y sepuedehacerempleandoRBMs, SAEs, yCSAEspre-entrenadosdeformanosupervisadaconautocodificadoresdispersos,ytambiénconCNNsentrenadasdeextremoaextremo(End-to-end).

Dentro de esta tarea tiene lugar también mencionar el Multiple InstanceLearning(MIL)que,sisecombinacontécnicasdeAprendizajeProfundo,mejoralosresultadosde la clasificación, sobre todoenaquelloscasosdondeesmuycostosogenerardatosparaelentrenamientoporqueserequierehaceranotacionesen losobjetos. Aun no estandomuy extendida, esta combinación demétodos se esperaqueseamuyexitosaenlospróximosañosenimagenmédica,evitandolanecesidaddedisponerdeinformaciónmédicaanotada.

b)Detección“Acción de detectar – Captar o notar la presencia de una persona, una cosa o unfenómeno-”

-Localizacióndeórganos,regionesypuntosdereferencia(olandmarks)Alahoradehablardeclasificacióndeobjetossehamencionadoqueestosobjetosyatienenqueestarpreviamenteidentificadosylocalizados.Así,sepuedeverqueladeteccióndeunadeterminadaestructuraanatómicaesunpasomuyimportanteenel análisisde imagenmédica, y si no es realizadodeuna forma correcta, causaráproblemas comouna segmentación incorrectade la estructurade interéso comodificultarelflujoclínicodeunaterapiaodeunaintervención.

Page 32: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

24

El localizar estructuras en imágenes médicas suele implicar analizar losvolúmenes en 3D, para lo cual se siguen tres líneas diferentes: interpretar elvolumenen3Dcomounaseriedeplanos2Dortogonalescompuestosentreellos;identificar la ROI, que será la región anatómica de interés, por medio de CNNspreentrenadas yRBMs, y por clasificación; ymodificar el proceso de aprendizajeparaquelaredpredigadirectamentelalocalizacióndelaestructuradeinterés.Deestostresprocesoselsegundo,ellocalizarlasestructurasdeinterésen2Dtratandolatareacomosifueraunprocesodeclasificación,eselmásempleado,mientrasqueelúltimodeelloseselmáscomplicado,perodelcualenunfuturoseesperallegaratenermejoresresultadosdelocalización.

Para concluir, comentar también la aplicación demétodos de AprendizajeProfundoparatrabajarconvídeosmédicos,locualmuestraelaltopotencialdelasRNNsparalocalizarestructurasenundominiotemporal.

-Deteccióndeobjetos(lesiones)Ladeteccióndelasregionesdeinterés,delaslesiones,esunodelospuntosclaveencualquierdiagnósticomédico,ademásdeserunadelastareasquemástrabajodaalosespecialistas.Lomáshabitualesqueenunaimagenhayamásdeunapequeñalesión, y consecuentemente en la tarea de detección tienen que localizarse eidentificarsetodasycadaunadeellas.

Para esta tarea se tienen los conocidos como Sistemas de Ayuda a laDetección o CADe, en los cuales se trabaja constantemente para mejorar suprecisión en la detección, disminuir el tiempo de lectura de las imágenes, y endefinitivaasesoraralosexpertosyayudarlesensulabordiaria.

Laformatípicaenlaquefuncionanestossistemaseslasiguiente:primerosehaceunaclasificaciónde todos lospíxelesovóxelesde la imagenempleandounaCNN,yacontinuaciónseaplicaalgúntipodepre-procesadoparaobtenertodoslosobjetoscandidatos.LaarquitecturadeestasCNNsy lametodologíaquesiguenesanálogaalaempleadaenlaclasificacióndeobjetos,puessontareasequiparables.Del mismomodo que en la clasificación, en esta otra también es útil incorporarinformacióndecontexto,paralocualseestánempleandoCNNsmulti-stream.

Aúnteniendomuchosaspectosencomún,obviamenteexistenotrosmuchosenlosqueladeteccióndeobjetosdifieredelaclasificacióndelosmismos,comoporejemploelhechode,enlatareadedetección,alsertodoslospíxelesclasificadosobien como candidatos o como no-candidatos, siempre va a haber muchos máspíxeles correspondientes a la clase no-candidato, que además suelen ser píxelesmuysencillosdediscriminar(compartencaracterísticasmássimilares).Sisesumaestarelativafacilidaddeclasificaciónconlagrandiferenciaenproporcióndeunossobreotros,resultaqueelalgoritmoterminacentrándosemásenclasificaraquellospíxelesquenosondeinterésqueaquellosquesíloson,pueslospíxelesdelalesiónen particular terminan siendo un reto. Por ello esmuy importante en esta tareaaplicar determinadas técnicas para lograr un balanceado entre ambas clases,ayudandoasíqueelalgoritmosecentreenambasporigual.

Para concluir esta sección se podría decir que los aspectos en los que ladeteccióndeobjetos o lesionesdifierede la detección sonprecisamente aquellosquesuponenundesafíoactualmente.

Page 33: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

25

c)Segmentación“Accióndesegmentar–Cortaropartiralgoensegmentos-”-SegmentacióndeórganosysubestructurasDe formatécnica, lasegmentaciónsesueledefinircomoel identificarelgrupodevóxelesqueconstituyenelcontornooelinteriordelobjetodeinterés.

Enimágenesmédicas,lasegmentacióndeórganosyotrassubestructurasesesencial para poder hacer un análisis cuantitativo de parámetros clínicos enrelaciónconlaformayconelvolumendelasmismasestructuras(i.e.paraanálisiscerebralesocardíacos).Además,lasegmentaciónesunprimerpasoenlossistemasdedetecciónporordenador,cobrandotodavíaunamayorimportancia.

Porestaimportanciaderealizarbienlasegmentacióndelasestructurasdeinterésexistenmultituddemodelosqueproponendistintosenfoquesparaabordarelproblema,desdearquitecturasCNNsespecíficashastaRNNs.

DelasCNNsespecíficascabemencionarU-Net,publicadaen2015[28].Susprincipales novedades son la combinación, en igual cantidad, de capas deupsamplingydecapasdedownsampling,ylapresenciadeconexionesentrecapasopuestas de convolución y de deconvolución, que permiten concatenarcaracterísticasdeestas capas.Conestasdosmejoras, ydesdeunaperspectivadeentrenamiento,estohacequelasimágenespuedanserprocesadasporlaredenunúnico paso hacia delante, resultando en el mapa de segmentación directamente.Además,graciasaestaestructura, laU-net tieneencuentaelcontextoglobaldelaimagen,algoquecomosehacomentadodeformacontinuadaesunagranventajaen comparación con las CNNs estándar. A partir delmodelo de estaU-Net otrosautoreshanimplementadootrasarquitecturasqueproporcionanciertasmejoras.

Porotrolado,paraevitar,oalmenosdisminuir,lacomputaciónredundanteprovocadapor el usodeventanasdeslizantespara ir clasificando lospíxeles, hayautores que proponen usar fCNNs. El desempeño de estas redes es muysatisfactorio pues pueden ser aplicadas amúltiples objetivos a la vez (i.e. con lamisma fCNN entrenada se segmentan de distintas imágenes tanto el cerebro enMRIs,elmúsculopectoralenMRIsylasarteriascoronariasenCTAs)[29].

Finalmente,elprincipaldesafíoalqueseenfrentanadíadehoylastécnicasdesegmentaciónesreducirlatasadevóxelesincorrectamenteclasificados,paralocual recientemente se ha propuesto combinar las fCNNs con Modelos Gráficos(MRFs) y con Campos Aleatorios Condicionales (CRFs), que consiguen refinar lasalidadelatareadeclasificación.

-Segmentacióndelesiones

Lasegmentacióndelesionescombinatantolosdesafíosdeladeteccióndeobjetoscomolosdelasegmentacióndeórganosysubestructuras.

Con ladeteccióndeobjetos comparten las característicasdeldesequilibrioentre clases, y que es necesario tener información tanto local como del contextoglobalparaque la localizaciónde la lesiónseaprecisa,yparaestoúltimoseusanredesdeltipoU-netysusderivadas.

Page 34: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

26

Porello, lasegmentaciónde lesionescombina losenfoquesde ladeteccióndeobjetosconlosdelasegmentacióndeórganos,ycualquieravancerealizadoenestosdoscampossepropagaráconprobabilidadalasegmentacióndelesiones.

d)Registro“Acciónderegistrar–Dejarregistroimpresodeimágenes,sonidosenundisco,enunacintamagnéticaoenotrosoportematerialparapoderlosreproducir.-”

El registro de imágenes médicas, también conocido como la alineaciónespacial de imágenes, consiste en dada una imagen inicial, aplicarle unatransformacióndecoordenadas,obteniendounaimagenfinal.Amenudoseasumeuntipoespecíficodetransformación(i.e.noparamétrica)yseempleaunamétricapredeterminada(i.e.lanormaL2).

Aunno siendo tan empleadas las redes profundas para esta tarea, puedenaportarmuchosbeneficiosalahoradeobtenerelmejorregistroposible.Paraellose usan dos estrategias; utilizar las redes para estimar una medida de similitudentredosimágenesdadas,yapartirdeéstaaplicarunaestrategiadeoptimizacióniterativa; o predecir directamente los parámetros de transformación utilizandoredesderegresiónprofunda.

Todavía no existen muchos artículos de investigación sobre el tema y lospocosexistentestienenunenfoqueclaramentedistinto,porloqueafirmarqueunmétodoesmásprometedorqueotronoseríalomásadecuadoporahora.

e)Otrosusosenimagenmédica- Recuperación de imágenes basadas en su contenido (Content Based ImageRetrieval,CBIR)LaCBIRconsisteendescubrirconocimientoenbasesdedatosmasivas, locualenanálisis médico es de utilidad a la hora de identificar casos similares, entendertrastornosrarosy,enúltimainstancia,mejorarlaatenciónalpaciente.

El principal reto en el desarrollo de los métodos CBIR es extraerrepresentaciones de características efectivas de la información a nivel de píxel yasociarlas con conceptos significativos, tarea para la cual los modelos de CNNprofundos funcionan de forma efectiva por su capacidad para aprendercaracterísticas complicadas a múltiples niveles de abstracción. Así, todos lostrabajoshastalafechautilizanCNNspre-entrenadas.

Por ahora, los métodos de aprendizaje profundo no han tenido muchasaplicacionesexitosasenestatarea,aunqueseesperaqueenunfuturocercanoestasituacióncambie.

-GeneraciónymejoradeimágenesLageneraciónymejorade imágenesabarca tareasmásbiendepre-procesadodelas mismas, como la eliminación de elementos obstructivos en las imágenes, lanormalizaciónde las imágenes, lamejorade lacalidadde la imagen,elcompletardatosyeldescubrimientodepatrones.

Para lageneraciónde imágenes, seusanCNNs2Do3Dparaconvertirunaimagen de entrada en otra. Estas arquitecturas suelen carecer de las capas deagrupación y por ello se requiere realizar un entrenamiento con un conjunto de

Page 35: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

27

datosenelqueseincluyanlaentradaylasalidadeseadas,yenelquesedefinanlasdiferencias entre ellas, así como la función de pérdida. Un ejemplo de su uso enimagenmédicaseplasmaen[30]dondesegeneraronunaseriede imágenesyseemplearonenunCADparaeldiagnósticodeAlzheimerencasosdondenoseteníanlosdatosoriginales,debidoaquehabíansidoadquiridosoaquenoseencontrabandisponibles.

EstaaplicaciónessolounejemplodequelasCNNsonmuyútilesparainferirinformación que falta. Sin embargo, en las otras tareas de pre-procesadomencionadas(normalización,degradación)todavíanosehaencontradoquesuusoaportemejoressignificativas.

-Combinacióndedatos:ImágenesconinformesdetextoEl tener una imagenmédica asociada a un informe es algo de gran utilidad puesayudaalosespecialistasensustareas.Elpoderrealizarestodeformaautomáticasería algomuy provechoso. Por ahora, las dos tareas que se realizan son el usarestos informesyaprovecharlosparamejorar laprecisióndelaclasificacióndelasimágenes,yelgenerarinformesdetextoapartirdelasimágenes.

Así pues, tras haber revisado el estado del arte de las aplicaciones de las

RedesNeuronalesenelcampodelaimagenmédica,resultademayorinterésverenqué áreas del cuerpo humano se están aplicando con un mayor éxito. De estamanera,seagrupanlosusosdeAprendizajeProfundoporórganosenlasseccionesacontinuación.

-CerebroPara analizar imágenes cerebrales la técnica más empleada son las DNN, condistintasaplicaciones[4].Entretodasellasdestacalaclasificacióndelaenfermedadde Alzheimer, por el gran número de estudios que tiene asociados, y lasegmentación del tejido cerebral y de las estructuras anatómicas (i.e. delhipocampo).Tambiénsetrabajamuchoenladetecciónysegmentacióndelesionescerebrales como los tumores, las lesiones de materia blanca, las lagunas, y losmicro-sangrados.

La mayoría de estos métodos funcionan aprendiendo primero a mapearpatches locales a representaciones, y luego estas representaciones a etiquetas declasificación.

Porotro lado, cabemencionarqueapesardeque las imágenes cerebralesson volúmenes en 3D, la mayoría de los métodos funcionan en 2D, yconsecuentemente analizando los volúmenes3D rodaja a rodaja. Esto sehace asípara que el coste computacional sea menor, o porque en muchos casos losvolúmenesresultandemasiadogruesosparasuanálisis.Aunasí, laspublicacionesmásrecienteshanempleadoredesquefuncionanen3D[31][32].

En cuanto a lamodalidad de imagen empleada, en casi todos los casos seusan imágenes de RM cerebral, pero se espera que otras como el CT y los UScomiencenaserempleados.

Page 36: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

28

-Ojos:

LosalgoritmosdeAprendizajeProfundoseaplicanalacomprensióndelaimagenoftálmica desde hace muy poco. Lo más destacable y trabajado es el empleo deCNNssimplesparaanalizarlaretinografíadecolor(colorfundusimaging,CFI).Deeste análisis surgen distintas aplicaciones; la segmentación de estructurasanatómicas,lasegmentaciónydeteccióndeanomalíasdelaretina,eldiagnósticodeenfermedadesocularesylaevaluacióndelacalidaddelaimagenocular. Una aplicación que ha alcanzado particular éxito es la detección deretinopatía diabética con CNNs, alcanzando estas redes mejores resultados quecualquierotrométodoeinclusomejoresquelosobtenidosporexpertoshumanos[33].

-TorsoDetodaslasaplicacionesquepuedenresultardeanalizarimágenestorácicas,tantodeRXcomodeCT;ladedetección,caracterizaciónyclasificacióndenódulosesenla que más se trabaja. Para abordarla se emplean estrategias como añadircaracterísticas obtenidas por redes profundas a conjuntos de características yaexistentes,ysemidesudesempeñocomparandosuprecisióncon laobtenidaporenfoques clásicos de ML, que emplean solo los conjuntos de características yaexistentes.

EnCTlomáshabitualesladeteccióndepatronesdetexturasindicativosdeenfermedades pulmonares intersticiales; mientras que en las radiografíaspredominalatareadedeteccióndemúltiplesenfermedadeseneltorsoempleandounsolosistema,algoconseguidopormásdeungrupodetrabajo.Deestasimágenesradiográficas,elexamenmáscomúneslaradiografíadetórax.Variasobrasutilizanun gran conjuntode imágenes con informesde textopara entrenar sistemasquecombinanCNNsconRNNsparael análisisde imagenyde texto, respectivamente[4].

-MicroscopíaypatologíadigitalLa creciente disponibilidad de imágenes de grandes dimensiones (WSI) demuestrasdetejidoshahechoquelapatologíadigitalylamicroscopíaseconviertanen un área de gran interés para aplicar técnicas de Aprendizaje Profundo.Actualmente se usa para tres aplicaciones principalmente; para la detección,segmentaciónoclasificacióndenúcleos,parasegmentacióndeórganosgrandes,yparadetecciónyclasificacióndelaenfermedaddeinterésenlalesiónoenlaWSI.

También se usan técnicas de aprendizaje profundo para normalizar deimágeneshistopatológicas,destacandolanormalizacióndecolordelasmismas.

Eldesarrollodetécnicasdepatologíadigitalcomputarizadasehafomentadoporlosmuchosdesafíosquehansurgidoeneláreadelapatologíadigital,comolasegmentación 2D de procesos neuronales, la detección de la mitosis, lasegmentacióndedistintasglándulas,yelprocesamientodemuestrasde tejidodecáncerdemama.ParaabarcartodosestosretossehadecididoemplearalgoritmosbasadosenCNNs.

Enrelaciónconelsiguienteórganoaestudiar,lasmamas,cabedestacarqueen 2016 en el Tumor Proliferation Assessment Challenge (TUPAC) se propuso

Page 37: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

29

detectar lamitosisenel tejidocancerosodemamay predecir laclasificacióndeltumor con WSIs. El sistema de mayor rendimiento, en todas las tareas [34],funcionabaentrespasos:encontrarlasregionesdealtadensidadcelular,usarunaCNNparadetectarlamitosisenlasROIs,yfinalmenteconvertirlosresultadosdelpasoanteriorenunvectordecaracterísticasparacadaWSI,paraluegoemplearunSVMquecalculabapuntuacionesdeproliferacióntumoralydedatosmoleculares.

-ImágenescardíacasElAprendizajeProfundosehaaplicadoamuchosaspectosdelanálisisdeimágenescardiacas.LamodalidadmásusadaparaelloeslaRM,ylatareamásseestudiadaeslasegmentacióndelventrículoizquierdo;sibienexistenmuchasotrasaplicaciones,como la segmentación de otras estructuras, el seguimiento de lesiones, laclasificaciónde imágenes, la evaluaciónde la calidadde la imagen, la puntuaciónautomatizadapara losnivelesde calcio, y el seguimientode la línea central en laarteriacoronaria,entreotras.

LamayoríadelostrabajossebasanenCNNs2Dsimples,yparaelloanalizanlosdatos3D,yamenudolos4D,rodajaarodaja.Existealgunaexcepcióndondeseemplean CNNs para volúmenes 3D. También se pueden encontrar artículos queusan DBN, pero solo para la etapa de extracción de características. Finalmenteresultan de interés dos artículos diferentes [35] [36] que combinan, en amboscasos,CNNsconRNNs,obteniendoresultadosinteresantes.

Unpuntoafavordelostrabajosrealizadossobreimágenescardíacasesquela mayoría utilizan BBDD que están públicamente disponibles, algo que pordesgracianosucedeparalasimágenesdemuchasotrasestructuras.

-AbdomenLosestudiosrelativosalabdomenbuscanlocalizarysegmentarlosórganosqueseencuentranbajoél,principalmenteelhígado,losriñones,lavejigayelpáncreas.Deformamásconcretaotros trabajosabordan la tareadesegmentaciónde tumores,enparticularhepáticos.LamodalidaddeimagenprincipalmenteempleadaeslaTCparatodoslosórganos,aexcepcióndelaRMenelcasodelosanálisisdepróstata.

Sisetuvieraquedestacarunáreaporelamplionúmerodeinvestigacionesquepartendeellaéstaseríaelcolon[4],pueseselúnicoórganobajoelabdomendondesehaencontradomásdeunaaplicacióndelAprendizajeProfundo,aunquesiempredelamismamanera;usandounaCNNcomoextractordecaracterísticasyutilizandoestascaracterísticasparalaclasificación.

-Músculo-esquelético:Las imágenesmúsculo-esqueléticas también sehananalizadoenvariasocasionesempleandoalgoritmosdeaprendizajeprofundo,enconcretoparalasegmentacióneidentificación del hueso, de articulaciones y de anomalías asociadas a tejidosblandos,todoelloenmuydistintasmodalidadesdeimagen.-MamasAunqueladeteccióndelcáncerdemamaenimágenestantomamográficascomodeotrasmodalidadesesunadelastareasdondesepuedenencontrarmástrabajosdemodelosdeAprendizajeProfundo,nosevaatratarestetemaaquí,sinoquesehará

Page 38: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

30

más adelante, el Capítulo 4, pues se quiere abordar el problema de analizar lasimágenes de lasmamas con todo el detalle, por ser uno de los objetivos de estetrabajo.

-Otras:Finalmente, se agrupan aquellos trabajos dirigidos hacia otras aplicacionesmédicas,cuyodesarrolloporahoraestáalgomásretrasadoquelosanteriores.Deellas destacan fundamentalmente las aplicaciones obstétricas, donde los trabajosbuscanlograrunaselecciónautomáticadelaimagenapropiadadetodalasecuenciaque proporcionan los US, y las dermatológicas, que emplean imágenesdermoscópicas.Deéstasúltimasyhastahacepoco,losesfuerzossehancentradoenel diagnóstico del cáncer de piel a partir de fotografías por su alto grado dedificultad, pero últimamente muchos estudios han optado por trabajar solo conimágenesobtenidasconcámarasespecializadas,consiguiendoapartirdeenfoquesconredesneuronalesprofundasresultadosmásqueprometedores.

A modo de conclusión, cabe mencionar el hecho de que cada vez se estátrabajando en arquitecturas de Aprendizaje Profundo que puedan aplicarse sinmodificaciones a distintas tareas, haciendo así de las redes neuronales modelosversátilesyfácilmentegeneralizables.Estosehaconseguidoyaenalgunostrabajos,queobtienenresultadoscompetitivospre-entrenandoarquitecturascon imágenesdeundominiocompletamentediferentealmédico,paraelquesequierenaplicarlasredes.

4.Diseñodeunametodologíaparaelanálisisdemamografías Comosehacomentadoanteriormente,elAprendizajeProfundoexistedesdehacemuchomásdeloquesepiensa,sibiennosevioexplotadohastaestosúltimosañosdebido al hecho de que no se disponían de bases de datos públicas losuficientemente amplias como para trabajar con él, y a que los ordenadores quehabía hasta el momento no eran lo suficientemente potentes, si bien amboshándicapshansidosuperadosconlasmejorascomputacionalesylabuenalaborderecolección de datos para generar grandes bases de datos. Concretamente, elprimerartículorelacionadoconaplicarelAprendizajeProfundoa lamedicina fuepublicado en 1996 [37] y tenía como objeto clasificar el tejido del pecho comocancerígeno o no en función de su textura. En los últimos años, el interés por elcáncerdemamahasidocreciente,porelgrannúmerodeafectadosporunlado,yporotroporlagrancantidaddeimágenesquesetienen,loquehahechoquesurjanmultitud de estudios que proponen técnicas y algoritmos diferentes para sudetecciónyclasificación.

Pero,¿quéesexactamenteelcáncerdemama?

4.1.ElcáncerdemamaElcáncerdemamaeshoyendíaeselsegundotipodecáncermás frecuente,conunaincidenciadel12%.Enelaño2012sediagnosticaroncercade1,7millonesdenuevos casos en el mundo, y solo en España se descubren alrededor de 22.000casosalaño[38].

Page 39: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

31

Sehabladecáncercuando,alcontrariodelasituaciónnormal,enlacuallascélulassanasdelorganismosereproducendeformalentaycontrolada;éstassevenafectadaspormutacionesdelmaterialgenéticoconelpasodetiempo,derivandoenun crecimiento celular anormal y finalmente en la formación de un tumor, queadquiere la capacidadde invadir tejidos cercanos (infiltración) y deproliferar enotras partes del organismo (metástasis). Esto es lo que se conoce como tumorcancerosoomaligno, sibiencabemencionarque tambiénpuededarseel casodequeelcrecimientocelularanormalsealentoysimilaraldelascélulasoriginales,yeltumorqueseoriginenosuponganingúntipodepeligroparalasalud,queseauntumorbenigno.

Enel casodeque las célulasmutadas sean lasde lamama,bien lasde lasglándulas que producen la leche mamaria (cáncer carcinal) o bien las de losconductos que la transportan (cáncer ductal) [39], es cuando estamos ante elcáncer de mama. Este tipo de cáncer afecta mayoritariamente a mujeres, de lascuales 1 de cada 8 se verá afectada por cáncer demama a lo largo de su vida, ysuponiendoestaenfermedadel25%deltotaldediagnósticosdetodoslostiposdecáncer anuales[40]. Aunque a priori estos datos pueden parecer insalvables, losreferidos a las tasas de supervivencia son también muy altos. Un diagnósticotempranodeltumormalignoensusprimerasetapas,ysuconsecuentetratamiento,haráqueelproblemaseresuelvaenun80-90%de loscasos.Portanto, lograrundiagnosticolomásrápidoposibleyverazresultaunobjetivoclaroynecesarioenelquetrabajar.

A lahoradedetectarelcáncerdemamaenetapastempranas, losmédicosbuscan pequeños tumores o algún otro indicio que denote la presencia de laenfermedad.Unadelaslesionesmásfrecuentesjuntoconlasmasastumoralessonlos grupos de microcalcificaciones, pequeñas acumulaciones de calcio cuyapresencia está relacionada con una elevada actividad celular, como la que seproduceenelcasodelaaparicióndeuntumor.Sesabequeentreun30%yun50%de los pacientes afectados de cáncer de mama presentan dichasmicrocalcificaciones en susmamografías, y entre un 60% y un 80% lo hacen enexámenes histológicos [41]. Por ello, aunque su presencia no implica de formaestrictalaexistenciadecáncer,síqueesunbuenindicadordeello,yporlotantoesútilparadeteccionestempranasdetumores.

Paraladetecciónexistendiversosmétodos(exámenesfísicos,biopsiasparapruebasdelaboratoriocomolaFNB(FineNeedleBiopsy),pruebasgenéticas)perosihayunoqueresaltasobrelosdemássonlaspruebasdeimágenesmédicas(rayosX, resonancia magnética, ultrasonidos y tomografías), y en particular lasmamografías[41].

Elextendidousodelamamografíasedebe,porunlado,aqueesunatécnicamínimamente invasiva, y por otro, a la gran fiabilidad de esta prueba. Lasmamografíasnosoloseempleanparaladeteccióndeltumor,sinotambiénparasuevaluaciónyseguimiento.ParagenerarmamografíasunequipoderayosXproyectadicha radiación, que atraviesa el tejido de la mama en mayor o menor cantidadsegún la densidad del tejido, obteniéndose una imagen en escala de grises quepermiteidentificarlaszonasdañadas.Lomáscomúnhastaelmomentoerahacerlodemanera analógica, pero en los últimos años se han comenzado a sustituir losequiposanalógicospordigitales,locualhallevadoaenormesmejorasenlacalidad

Page 40: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

32

de las imágenes, y consecuentemente en la calidad de la detección, ya que lasmamografías digitales pueden ser procesadas fácilmente para eliminar el ruido ylosartefactospresentes,siendoasímásfácilesdeinterpretar.

La interpretaciónde lasmamografíasesprecisamenteelmayorretoconelqueunradiólogosepuedeencontrarhoyendía.Debidoalruidoyalasimilituddealgunostejidos,asícomoalasmúltiplesmorfologíasyvariabilidaddelaslesionesmuchasvecesresultacomplicadolaemisióndeundiagnosticocienporcienfiable.

La consecución de imaginesmás claras, y en definitiva de resultadosmásprecisoses lamotivacióndemuchosestudiosqueseestán llevandoacaboen losúltimos años. Así, la introducción de técnicas automáticas de detección,segmentación, localización y clasificación, entre otras, son de gran ayuda para latomadedecisionesporpartedelprofesional.Estossistemaspueden,enunfuturo,llegararealizarlalabordeidentificacióndelesionesdeformaíntegra,sibienestácomprobadoqueporahora funcionancomouncomplementoocomounsegundo“experto”queleayudearealizarundiagnóstico.

Enconcretoenestetrabajoseefectúaunestudiodetodosaquellossistemaspropuestosenlosúltimosañosqueempleanmétodosdeaprendizajeprofundoparatareas relacionadas con la mejora del diagnóstico del cáncer de mama, comopueden ser la selección de características de forma automática, la detección deanormalidades y su clasificación en malignas o benignas, o la detección ylocalizacióndelaslesiones.Además,partiendodeestarevisióndelestadodelarte,seproponeunametodologíaparaladetecciónautomáticadelesionesenlasmamas,queseráexplicadaenlasiguienteSección4.3.

4.2.EstadodelartedelAprendizajeProfundoenimagendelcáncerdemamaUnradiólogodecidesobre lamalignidadobenignidaddeun tumorbasándoseenunaseriedecaracterísticasespecíficasqueencuentraenlalesión.Porello,alahorade automatizar esteproceso se requieredeun sistemaque tengadefinidos estosdescriptores de los tumores. Los sistemas que realizan esta labor de toma dedecisionessonlosCADeylosCADx,paralaayudaaladetecciónyparalaayudaaldiagnóstico,respectivamente.

Estossistemasfuncionanapartirdeunosdatosquesonprocesadosporelsistema,basadoenalgúntipodemodelo.EnlosúltimosañossehademostradoqueelAprendizajeProfundotieneungranpotencialparaserestemodelodebase.Lomáscomúndesde los iniciosdesuaplicaciónalanálisisde imágenesmedicaseraemplear como datos imágenes, en concretomamografías, y CNNs comomodelosparaanalizarlas.Dehecho,elartículoquedatade1996mencionadoanteriormenteloconfirma,yaqueproponenunaCNNparalaclasificacióndeROIsdemamografíasentejidonormalomasas[37].

Lamamografíaessindudalamodalidaddeimagenmasempleadaparaestastareasenelcáncerdemama,debidoaqueeselestudiomáscomúnmenterealizadoyporlotantodelcualsedisponenmásdatos,sinanotar,perosobretodoanotados,locualesalgomuyútilparaentrenarlosmodelosdeaprendizajeprofundo.Apesarde que la mayoría de artículos revisados emplean mamografías, sí que se

Page 41: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

33

encuentranotrosqueproponenusarotrasmodalidadesde imagen, comopuedenserlosUS[42][54][60],losMRI[47],ylosvolúmenesdeTS[50][57][58].

LossistemasdeayudaaladecisiónporordenadorCAD(parageneralizaryno hablar solo de CADx o de CADe) suelen realizar las tareas en tres pasos. Elesquema más general empieza por una etapa de obtención, tratamiento yadecuación de los datos, que puede ser manual o estar automatizada. Acontinuación, está una etapa de detección y localización de lesiones, que puedeestarmás omenos automatizada también, y finalmente se encuentra la etapa declasificación.Paralasdistintastareasserequierendistintostiposdemodelos,ylostrabajosqueaquíseanalizansecentranobienenalgunadeellasoenelprocesoglobal.

Paralasegundaetapa,queesdondemáspesotienenlosmodelosprofundos,enlosúltimosañossiguehabiendomuchostrabajosqueproponenalasCNNsparalasetapasdeextraccióndecaracterísticas,deteccióny localizaciónde las lesiones[44] [46] [47] [48] [51] [52] [56], si bien existen otras técnicas de aprendizajeprofundoconlasquetambiénseestáexperimentandoparaelmismofin,comolasADN[42],variacionesde laMáquinadeBolztmanncomoDBN[64]yRBM[60],ylosautocodificadores[53][63]ytodasellasobtienentambiénbuenosresultados,apesardequesehademostradoqueelaprendizajedeestetipoderedesesalgomáscomplicadoycostoso[42].

Así, volviendo a las CNNs, la forma de operar típica para la detección deanormalidades, bien sea en unamamografía o en otro tipo de imagenmédica, sedivideenunaseriedepasos.Paraempezarsegeneranunaseriedecandidatosquepueden ser distintos tipos de anormalidades, generalmente masas omicrocalcificaciones, definidos por sus coordenadas, y a continuación son todosellospasadosporunextractordecaracterísticasquehansidodefinidasyextraídasmanualmenteenuna faseprevia [50],quedándoseelsistemasoloconalgunosdeellosqueseránsalidadeestaredyentradadelasiguientecapa,laencargadadelaclasificación (si el sistema tiene como propósito clasificar y no solo detectar ylocalizar).

Aunquesíqueesciertoquelossistemassuelenemplearparaeldiagnósticodecáncerelcriteriodepresenciaenla imagendemicrocalcificacionesy/omasas,cadavezseencuentranmástrabajosqueproponenotroscriteriosparapredecirelcáncerdemama,comopuedenserladensidaddeltejidoparenquimal[44],queestádirectamenteasociadaconeldesarrollodecáncerdemama,lacantidadrelativadetejido radiodenso o la heterogeneidad del pecho según sus características detextura [53] [63].Aunasí,noestá todohecho todavíaen lossistemasquebuscandetectaryclasificarlesionesybuscarestefinsiguesiendodeinterés,porejemploporque microcalcificaciones son a menudo pequeñas y un radiólogo puedeomitirlasporerror,porelloesimportanteseguirtrabajandoenestecampo[55].

En cuanto a extracciónde características, cuandoesmanual, tieneque serrealizada a partir de un conocimiento teórico y verificado, es decir, tiene quetrabajar un radiólogo experto, omás de uno, en elegir estas características y enanotar las imágenes, a nivel de pixel o de regiones, para que pueda usarse comobase del aprendizaje. Algunos ejemplos de características empleadas sonhistogramasdevaloresdeintensidad,característicasdemorfologíaydescriptoresdetexturalaforma,eltipodefronteraoladensidad[54],aunquemuchasveceses

Page 42: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

34

útilañadirotrotipodecaracterísticascomodeubicaciónydecontexto,einclusonoinherentesa lapropia lesión, comopueden serdatosdelpaciente [55].Peroestaextraccióndecaracterísticasestáligadaalanecesidaddedisponerdeunconjuntodedatosanotadosporunexpertomuygrande.Comoeslógicopensar,estoesalgomuycomplicadoporqueparahacerlodeformacorrectasenecesitaríaamásdeunradiólogoqueevaluaseyetiquetase las imágenes, ademásde tenerque lograrunacuerdo de confidencialidad por parte de los médicos y de los pacientes, quenormalmenteseoponenalacomparticióndelosdatos[59].

Por ello, por lo tedioso que es este proceso de anotación de lesiones yextraccióndecaracterísticasdeformamanual,sehancomenzadoaexplorarotrasalternativas que automaticen todavía más los CAD. Estas nuevas opciones sepuedendividirendosgrandesgrupos:usarmodelosmásprofundosyusartécnicasdelconocidocomoAprendizajedeTransferencia(TLoTransferLearning).

Se comienza hablando acerca de los modelos de CNN profundas (DCNN),puestoqueeseltipodemodeloquemásadelanteseproponeenestetrabajoparaelanálisisdemamografía.Estasredesestánformadaspormuchasmáscapasyporlotantotienenlacapacidaddeextraerconocimientoanivelesdeextracciónmayores,demaneramuchomásprofunda,comosupropionombreindica.Loqueproponenlosautoresdesistemasbasadosenestosmodelos[49][50][54][55][57][58][59]esqueapartirdelasimágenes,sealapropiaredlaqueaprendalascaracterísticas,sin necesidad de anotaciones a nivel de pixel, es decir, sin necesidad de que unespecialistamarquelasROIporejemplo,sinosoloaniveldeimagen[54].Paraellolos sistemas generan los candidatos de lesión de forma automática y usan lalocalizaciónparasituarenesepuntoelcentrodelaROI,generandopatchesdeestaslesiones,asícomodelasdemáspartesdelaimagen[50][55].Elempleodepatcheso sub-imágenes aportamúltiples ventajas, pues cogen toda la información de loscandidatosademásdealgodeinformacióndelcontextodesuentorno,loqueesútilpara obtener localizaciones más precisas y para la posterior clasificación [50].Consecuentemente no requieren ningún tipo de información de localizaciónespacial,yelañadírselanomejoralosderesultado[48].OtrossistemasbasadosenDCNN emplean aproximaciones similares pero sí que requieren trabajo deanotación, aunqueenmenormedida, como sepuedever en [57] y [58]donde sepideaunexpertoqueseleccionesololasROIsquesondeinterés,laspositivas,yelsistemaseencargadeladeteccióndetodaslasdemás.

Sinembargo,locomúnesquerequieranunamayorgrancantidaddedatosetiquetados para el entrenamiento porque precisamente tienen que aprender deellosde formanosupervisadaodébilmentesupervisada, loquesiguesiendoalgocomplicado a la hora de trabajar con imágenes médicas, por los motivos yacomentados.Aunasí,elpotencialdelasDCNNestáclaroqueesaltísimo.

La segunda alternativa a las CNNs simples es usar el Aprendizaje deTransferencia,estrategiaquecuentaconmúltiplesventajas.Unadeellasesquenoserequierenimágenesmédicasetiquetadasparaquelosresultadosseanbuenosalahoradeclasificardichasimágenes.EstofuncionaporquelasredesquefuncionanporAprendizajedeTransferenciasonpre-entrenadasenotroconjuntodeimágenesquesíqueestánetiquetadas,dedondeaprendenlascaracterísticas,yluegosere-entrenanenlatareadeinterés.Estepre-entrenamientopuedehacerseenimágenesde una tarea no médica [52]; en imágenes de otra modalidad médica, es decir,

Page 43: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

35

entrenar la red para una amplia base de datos de mamografías y “transferir” elconocimiento a una pequeña de TS como proponen los autores de [58],construyendoasíunsistemamultitarea,ytambiénconunsubconjuntodelconjuntode las propias imágenes que se quieren clasificar, lo que se conoce como Self-TransferLearningo Aprendizaje de Autotransferencia [57] [58] [59]. Este últimotipodeaprendizaje sería como tenerunmodelodeaprendizaje semisupervisado,estando disponible un pequeño conjunto de datos etiquetados (o de ROIsseleccionadas) y un gran conjunto de datos sin etiquetar, que aprenden de lasetiquetadasyvanpasandoaformarpartedeesteprimergrupo.

Finalmente,laetapadeclasificaciónserealizaráenunúltimopasomedianteotras técnicas, en la mayoría de los casos de aprendizaje de máquina y noespecíficasdelAprendizajeProfundo,comopuedenserlosSVM[42][44][46][60]o losRandomForests [45] [49] [55], si bien se encuentra algún trabajo donde laparte de la red que hace la clasificación sí que es un algoritmo propio deaprendizaje profundo, como una DNN para dar probabilidades [48]. En muchostrabajos se emplea el esquema CNN+SVM, para detección y clasificaciónrespectivamente,ylodenominanR-CNN[23][44][46][53].

Enestaetapadeclasificadorsepuedenbuscardistintostiposdesalidas.Lotradicionalesrealizarunaclasificaciónbinariadelaslesionesdetectadas,esdecir,unaclasificaciónendosclases,maligno/benigno,cáncer/nocáncer,etc.perootrosautoresestánproponiendoclasificacionesalternativas,ligadasabuscarpatronesdetexturaydensidadynolesionesenlasimágenes[44][53].Tambiénseencuentranclasificaciones asociadas al tejido de la mama (músculo pectoral, tejidofibroglandular, pezón, tejido general del pecho, que incluye al tejido graso y a lapiel) [48], yporúltimoclasificaciones realizadas segúnel estándarBI-RADS [45],queesunsistemaelaboradoporelAmericanCollegeofRadiologyparaestandarizarestaclasificacióndelesionesdelamamapermitiendoquepuedasercomprensibletanto para otros radiólogos de otros centros, como para lectores que no seanradiólogos ni especialistas. El BI-RADS clasifica los resultados y hallazgos de lasmamografíasen7categoríasdel0al6,representandoel0lanecesidaddeestudiosadicionales, el 1un resultadonegativo, y losnúmerosdel2 al 6 como resultadosque afirman la presencia de un tumor conmayor grado demalignidad en escalacreciente[65].

Cabe destacar asimismo la finalidad de dos trabajos en concreto que sedesmarcan bastante de estas tendencias. En [62] se busca detectarmicrocalcificacionesarterialesenelpechooBACsparaasociarsupresenciaconlaposibilidadde que el paciente padezca de una enfermedad cardíaca, y en [56] serevisandenuevomamografías clasificadas comonegativas para ver si se puedenencontrarindiciosdeposibledesarrollodeuntumorenlasmamas.

Unavezpropuestosyconstruidostodosestossistemas,esvitalanalizarsudesempeño en términos de efectividad y precisión, además de comparar susresultadosconlosderadiólogosespecialistasyfrenteasistemastradicionalesCADmásantiguos(menosautomatizados,conextracciónmanualdecaracterísticasporejemplo). Lo habitual es que por un lado, los sistemas con característicasautomáticasproporcionenresultadosparecidosalosantiguos,perosisecombinancon algunas características extraídas manualmente y siempre escogidas concriterio, apuntandoa lospuntosdébilesde la redneuronal, los resultados suelen

Page 44: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

36

mejorarbastante [46] [55],ydehechoenmuchassituacionesesunaestrategiaaseguir mucho más efectiva que el buscar mayores cantidades de muestras queañadir al conjunto de entrenamiento. Por otro lado, los sistemas propuestosmejoran la precisión respecto a la de los especialistas por separado, pero norespectoaladelosespecialistasenmedia[55].

Aunque todavía no se hayan alcanzado resultados significativamentemejoresqueloshumanoshayqueseguirtrabajandoenlaconstrucciónymejoradeestasredes.Existennumerososfactoresqueinfluyenengranmedidaenlacalidadde losresultados,ysuelensermétodosdepre-procesadoopost-procesadode lasimágenes.Elpre-procesadoincluyedistintastécnicasdemejoradelacalidaddelaimagenydeeliminaciónderuido,yquesinoseaplicanhacenquelaprecisióndelared decaiga notablemente [49]. Pese a que suelen ser pasos que se aplican porseparado,existealgúnsistemaqueyaproponeintegrarloscomounaprimerapartedelmismo, lograndoasíunpre-procesadoautomático, comosepuedecomprobaren [45], donde se proponen una serie de regiones ya habiendo segmentado,eliminadoelfondodelaimagenycortadolaregiónautomáticamente.Lasdistintasformas de pre-procesado de la imagen serán explicadas en detalle más adelantecuando se explique lametodología diseñada en este trabajo. Otra etapa previa aalimentar la redque sepuede considerardepre-procesado es la selecciónde lasROI,delacualyasehahabladopreviamente.

También cabe tener en cuentadentrodel pre-procesado las estrategiasdeaumentodedatos,muyusadasenimagenmédicaparalograrunconjuntodedatosdemayor tamaño.Elaumentodedatossueleseguirdos líneas;unamásclásicaapartir de transformaciones geométricas, ya sean rotaciones, traslaciones,inversiones y cambios de escala [55] [56] [57] [58] [62] y otra asociada a lostrabajos ya revisados que emplean patches para entrenar sus redes, recortandosub-imágenesque se pueden superponer, de cadaunade las imágenes, de formaque se consiguen multitud de sub-imágenes con combinaciones de pixelesdistintas.Unidoalaumentodedatossurgelanecesidaddehacerquelasclasesalasquepertenecenlospatchesesténbalanceadas,paralograrunbuenentrenamientodelared.Paralograrestosemuestreanaleatoriamenteunacantidaddepatchesdela clase mayor en número, equiparando los conjuntos [57] o se mantiene ladesigualdadperoenelentrenamientosecorrigemostrando lospatchesenmenorcantidad un mayor número de veces [55]. Los patches también llevan asociadoshabitualmentetécnicasdesubmuestreoparareducirsutamañoyhacerlostodosdeigualdimensiónotécnicasdepost-procesadoparareconstruirlaimagenoriginalapartirdeellos.

A modo de conclusión de esta sección, es importante resaltar dos cosas.Primero que aun no alcanzando resultados de precisión máxima, todos estosmodelosestánsuperandopocoapocoelestadodelarteconelquecompiten,locualesunamuybuenaseñal.Ysegundo,quetodosestosmodelosnobuscanenningúncasolasustitucióncompleta,sinoelayudarle,tantoliberándolederealizaralgunastareas que la máquina realiza mejor, como el asesorarle en algunos puntos delproceso, o como el proporcionar una segunda opinión a modo de “segundoprofesional”,loqueencualquiercasoesdegranayudaparaelradiólogo.

En la Tabla 2 se recogen los distintos trabajos mencionados en las líneasanteriores y se detalla, para cada uno de ellos y siempre que sea posible, la

Page 45: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

37

información considerada comomás relevantepara cadaunodeellos, esdecir, sufinalidad,lamodalidaddeimagenempleada,elpre-procesadodelosdatos,laformade obtener de obtener las características, el método empleado y los resultadosobtenidos por los autores. Si bien en ningún caso estamos ante modelos quefuncionen enunCADen la vida real, todavía; lospropios autores se encargandecomprobar la eficacia de sus sistemas, y proporcionan resultados empleandodiversas métricas así como comparaciones con otros trabajos. Por ello, se van adescribir cada una de las métricas que estos autores emplean, para su correctacompresión. La métrica más empleada es el área bajo la curva ROC (ReceiverOperating Characteristic), conocida como AUC, que representa los verdaderospositivos (VP) frente a los falsos positivos (FP), por lo que es unamedida de lacalidad de la clasificación, siendo 1 su valormáximo y 0 su valormínimo. Otrostrabajos recogen simplemente la tasa de VP y de FP, y otros hablan de laespecificidad,quesedefinecomo lacapacidaddedetectaraquellopara loquehasidocreadoelclasificador(ratiodeverdaderosnegativosentreeltotaldenegativosdetectados),yde la sensibilidad,quees lahabilidadparadetectar losverdaderospositivos(ratiodeverdaderospositivosentreeltotaldepositivosdetectados).Enmenormedida se emplean el índice de Dice, que compara la similitud entre dosmuestras;elvalorKappa,paramedir laconcordanciade laclasificaciónentredossistemas,yladesviaciónestándar(STD).

Page 46: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

38

Tabla2:Resumende los trabajosmásactualesqueempleanmodelosdeAprendizajeProfundoparael análisisdemamografías. Para cadaunodeellos sedetallan loscomponentesdelsistemamásrelevantes,juntoconlamodalidaddeimagen,lafinalidaddelsistemaylosresultadosobtenidos.

Referencia Año Modalidadimagen Finalidad BBDD Pre-procesado Obtenciónparámetros Método Resultados

[37]

1996 MG ClasificacióndeROIsen

tejidonormal/masas168mamografías

MamografíasdigitalizadasNormalizacióndelasimágenesROIsseleccionadasmanualmenteysub-muestreadasa16x16y32x32

4característicasdetexturacalculadasapartirdelasimágenes

CNN ROC=0.87

[42]

2012

MGUS Clasificacióndelesiones

cancerosas/nocancerosas

Conjuntode739MGy2393USdeelCentroMédicoUniversitariodeChicago(UCMC)

Sub-muestreodelasROIsa256x256Recortea140x140Rellenodelasimágenessinecesario

Extraccióndecaracterísticasnosupervisado(aprendizajeautomáticoapartirdelaimagen)

ADN+SVMAUC(US)=0.83AUC(MG)=0.71

[43]

2015 MG Deteccióndemasas

INbreast(410imágenes)DDSM-BCRP(79casos)

ExtraccióndecaracterísticasyclasificaciónDeteccióndecandidatosautomáticapormediodeunamáscaraadiferentesresoluciones

R-CNN(CNN+SVM)

ParaINbreast:TP=0.96atFPI=1.2TPof0.94atFPI=0.3

[44]

2015 MGClasificaciónsegúnladensidaddeltejidoparenquimal(4clases)

Mamografíasde1157mujeres

ROIseleccionadamanualmenteRedimensionadodelasimágenesa200x200píxeles,filtrado,umbralizaciónynormalización

Extracciónautomáticadecaracterísticas CNN+SVM

Precisión=66.96%Eficacia(kappa=0.58)análogaaladeunexperto(kappa=0.56-0.79)

[45]

2016 MG

Deteccióndeanormalidadesyclasificaciónennormales,benignas,malignas(puntuaciónBI-RADS1-5)

850mamografías

Pre-procesadoautomáticoparalasegmentacióndeltejidodelamama

PropuestaderegionescandidatasautomáticayselecciónautomáticaAumentodedatos

DBN+R-CNN+2RandomForests

Precisióndel0,775%AUC=0.66

[46]

2016 MG Clasificacióndemasas BCDR-FM

(1010casos)

SegmentacióndelaROIAumentodedatosporsobremuestreoNormalizaciónconcontrastelocalycontrasteglobal

ImágenesetiquetadasporexpertoConjuntode17característicasextraídasmanualmente+histogramaparacomparaciónAprendizajesupervisadodecaracterísticas

CNN+SVM

ROC(caract.automáticas)=0,822ROC(caract.manuales+automáticas)=0,826

Page 47: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

39

Referencia Año Modalidadimagen Finalidad BBDD Pre-procesado Obtenciónparámetros Método Resultados

[47]

2016 MRI

ClasificacióndelesionesenmalignasybenignasClasificacióndedistintostiposdecarcinomas

325MRIs

SegmentaciónsemiautomáticaporelalgoritmoMultiseedSmartOpening5caract.morfológicasy6dinámicasobtenidasautomáticamente

CNN+RandomForest

AUC=0.8543AUC(DCI)=0.7924AUC(IDC)=0.8688AUC(ILC)=0.8650

[48]

2016 MG

Clasificacióndepíxelesen4categoríasdetejidosdelpecho

40mamografíasMLO

UmbralizaciónparaeliminarpíxelesdefondoPost-procesado:Sub-muestreodelassalidasreducidasunfactorde8parajuntarlospatches

SegmentaciónmanualyetiquetadoporunexpertoGeneraciónde800.000patchesAprendizajeautomáticodecaracterísticas

DNN Dice=0.85-0.56(Segúntejido)

[49]

2016 MG Segmentaciónautomática

demasas

INbreast(56casoscon116masas)DDSM-BCRP(158imágenes)

Imágenesredimensionadasa40x40píxelesporinterpolaciónypre-procesadasconlatécnicadeBallyBruce

ROIobtenidamanualmenteCaracterísticasaprendidasautomáticamente

DCNN+CRM/SSVM

Dice(CRF)=0.93Dice(SSVM)=0,95Dice(NOpre-procesado)=0,85

[50]

2016 TS

Detecciónyreconocimientodecáncer(masasydistorsionesarquitectónicaspositivas/negativas)

1864lesionessospechosasdeMG2Dy339lesionesdevolúmenesDBT.

Patchesredimensionadosa256x256porinterpolaciónbilinealBrillodelospatchesre-escaladoEntradaspasadasdeRGBaescaladegrises

Generadordecandidatosautomáticoydepatchesalrededordecadaunoquecogeninfo.decontextoevitandolaextracciónmanualdecaracterísticas

DCNN

Sensibilidad(ROIssospechosas)= 0.893Sensibilidad(ROIsmalignas)= 0.930Precisión=0.8640

[51]

2016 MG

Localizaciónyclasificacióndemasas(positivas/negativas)

DDSM(10363imágenes)MIAS(322imágenes)

CXRsymamografíasredimensionadosa500x500

Modelodébilmentesupervisado(informaciónsoloaniveldeimagen,ROIsmarcadas)

STL+CNN

Localizaciónmejoraenun242%yclasificaciónenun6%encomparaciónconotrosmétodos

[52]

2016 MG Clasificacióndelesionesen

malignasybenignas

607FFMDscon219lesionesentotal

AprendizajedeTransferenciaconunaCNNpre-entrenadaentareanomédicayluegoentrenadaconlasmamografías

CNNAUC(TL)=0.81AUC(TL+caractmanuales)=0.86

Page 48: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

40

Referencia Año Modalidadimagen

Finalidad BBDD Pre-procesado Obtenciónparámetros Método Resultados

[53]

2016 MG

ClasificaciónysegmentacióndelpechoporpuntuacióndedensidadMDClasificacióndetejidosporpuntuacióndetexturasMT

DatasetMD,MTyDutchBreastCancerScreeningdataset(493,668y1576imágenes)

Redimensionamientodelasimágenes

Segmentacióndemamografíasenfondo/musculo/tejidomama(ROI)Generaciónautomáticadepatchesde24x24yaprendizajedecaracterísticasapartirdedatossinanotar

CNN+CSAE AUC=0.59

[54]

2016

USMG

Detecciónydescripciónsemánticadelesiones(Masas)Sistemamultitarea

974MGdeDDSM646MGpropias408USpropias

GeneraciónautomáticadelasROIconcajasrectangularesyextracciónautomáticadecaracterísticasUsodedistintosdescriptores(forma,margen,orientación,fronteras,etc.)

R-CNN

Precisión(DDSM)=0.82-0.77Precisión(US)=0.82-0.78Precisión(MG)=0.88-0.84

[55]

2016 MG

Detecciónyclasificacióndemasasymicrocalcificacionesenpositivo/negativo

45.000imágenes

AumentodedatosmediantetransformacionesgeométricasRellenodeimágenescon0’ssinecesarioEliminacióndeejemplosanotadosdelsetdeentrenamiento

DeteccióndecandidatosygeneracióndeROIsautomáticoconpatchesde250x250paralageneracióndecaracterísticasautomáticasConjuntode74característicasobtenidasmanualmente

DCNN+RandomForests

AUC(sinaumentodatos)=0.875AUC(aumentodatos)=0.929AUC(aumento+caract.manuales)=0.941

[56]

2016 MGDesarrollofuturodecáncerdepechoapartirdemamografíasnegativas

270clasificadascomonegativas

1CNN+MLP Precisión=71.4%

[57]

2016 TS

Deteccióndemicrocalcificacionesyclasificaciónenverdaderas/falsas

64 casos de DBT con microcalcificaciones (64 vistas CC + 63 vistas MLO)

Pre-procesadodevolúmenesparaobtenerlasimágenesFiltradodelruidodealtafrecuenciaTransformacionesgeométricasparaaumentarelconjuntodedatosBalanceodedatos

MicrocalcificacionesverdaderasanotadasmanualmenteyROIde16x16enelcentrodecadaunaEliminacióndeFPporotroCADDetecciónporumbralizacióniterativaycrecimientoderegiones,agrupamiento,yreduccióndeFPs

DCNNAUC=0.93(ComparadoconunaCNNconAUC=0,89)

Page 49: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

41

Referencia Año Modalidadimagen

Finalidad BBDD Pre-procesado Obtenciónparámetros Método Resultados

[58]

2016 TSAprendizajedeTransferenciaparaclasificacióndemasasenTSapartirdeMG

2282mamografíasanotadas324DBTs

AumentodedatosdeROIsNormalizacióndeROIs

AprendizajedetransferenciaROIsVPsegmentadasmanualmenteyFPeliminadasconotroCAD

DCNN

AUC=0.90(=0.81sinTL)Sensibilidad=91%(=83%sinTL)

[59]

2016 MG Diagnósticodecáncer

1874paresdemamografías(uncorteCCyuncorteMLO)

Segmentacióndesubregiones,extraccióndecaracterísticasbilaterales,seleccióndecaracterísticas,clasificación,etc.Aumentodedatosportransformacionesgeométricas

Aprendizajesemi-supervisado(PocasROIsetiquetadas+muchasROIssinetiquetar)21característicasanotadasmanualmenteyotrasobtenidasaposteriori

DCNN AUC=0.8818Precisión=0.8243

[60]

2016 US

SelecciónautomáticadecaracterísticasClasificacióndetumoresmalignos/benignos

227imágenesSWE

Sub-muestreodelasimágenesauntamañoyresoluciónfijos

Seleccióndecaracterísticasautomática(sinsegmentaciónnidatosanotados)Extracciónmanualde286característicassimplesparacomparación

PGBM+RBM+SVM

Precisión=93.4%Sensibilidad=88.6%Especificidad=97.1%AUC=0.947

[61]

2017 MG

Discriminacióndequistesaisladosbenignosymasasmalignas

1000imágenesconmasasmalignasy600imágenesconquistes

Imágenestransformadaslogarítmicamente,invertidasysegmentadasAumentodedatosaniveldetejido

Extracciónmanualdepatchesde260x260Extracciónde5característicasmanuales.Combinaciónposteriorconcaracterísticasautomáticas.Redpre-entrenadaconpatchesdemasasnormales

DCNN

AUC=0.80AUC=0.87siseusansololesionesmayoresde20mm

[62]

2017 MGDeteccióndeBACs(Calcificacionesarterialesdelpecho)

840FFDMsde210casosdedistintoscentros

Subimágenesde95x95pixelesAumentodedatos(Rotacionde90º,180ºy270ºyflippings)

DCNNIdentificacióndeBACssimilaraladelectoreshumanos

[63]

2017 MGClasificaciónporpuntuacionesdeMD(tejidodenso/tejidograso/fondo)ydeMT(cáncer/control)

Mini-MIAS

EliminaciónruidoporfiltradoSupresióndeartefactosradiopacosporumbralizaciónSegmentacióndelfondo

ObtencióndeROIsporcrecimientoderegiones

Autocodificador+Clasificadorsoftmax

Precisión=98,5%

Page 50: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

42

4.3.DiseñodeunametodologíaparaelanálisisdemamografíasEnesteúltimopuntodel trabajo,y trashaberestudiadoenprofundidad lasbasesdel Aprendizaje Profundo, así como los algoritmos y modelos que se estánaplicandoactualmenteparaelanálisisde imágenesde lamama,sevaaproponerunanuevametodologíaparaanalizarmamografías.Así,secomenzaráporexplicarlabasededatosde laque separte, y a continuación se justificará la eleccióndelmodelopropuestoyseexplicaránsusdistintaspartesycomponentes.

4.3.1.BasededatosEnprimerlugarsedescribelabasededatossobrelacualseentrenaría,sevalidaríay se probaría la metodología diseñada. Existen distintas bases de datos demamografíaspúblicasyconocidascomosonlaMini-MIAS,laDDSM,laB-SCREEN,laAMDI y la IRMA [66], de las cualesmuchasde ellas se hanusado en los trabajosrecogidosenlaTabla2.

En este trabajo se propone utilizar la base de datos DDSM o DigitalDatabaseforScreeningMammography [67][68],porser laúnicabasededatosdemamografíasdigitalespúblicamentedisponible.Contieneun total2620exámenesde distintos pacientes, cada uno de ellos formado por cuatro vistas, una cráneo-caudal (CC) y otra medio-lateral oblicua (MLO), para cada pecho. Así, en totalcontiene10.480mamografías,de tamañovariable, en tornoa3000x5000píxeles,con una resolución entre 42 y 100 μm/píxel. Al ser las imágenes mamografíasdigitales, al trabajar con ellas se tiene la ventaja de que no contienen el ruidocausado por la etapa de digitalización de las imágenes analógicas, presente enmuchos datasets, y consecuentemente asegura una mejor calidad de estasmamografías. Además, las imágenes ya han sido pre-procesadas, cortadas paraeliminar así el fondo y procesadas para oscurecer los píxeles que contenían losidentificadoresdelpaciente.

Además de las imágenes mamográficas en sí, la BBDD proporcionainformaciónadicional,tantoacercadelpacientealquepertenececadamamografía(sexo, edad, raza) como una descripción relativa al análisis de las imágenes yrealizada por un radiólogo experto; por ejemplo el número y tipo de anomalíaspresentesenlaimagen,sulocalización,yelgradodefiabilidaddeldiagnóstico.Enfuncióndeestainformaciónlasmamografíasestányaclasificadasencuatrogrupos,porexámenes,demenoramayorgradodeseveridad:exámenescontejidonormal(elexamenresultónormal laprimeravezasícomoalrepetirlounasegundavez),exámenes benignos sin un segundo examen (se calificaron como benignas laprimera vez y no se vio necesidad de pedirle al paciente que volviera para unsegundoexamen),exámenesbenignos(sielpacientetuvoquevolveraserllamadoparaunsegundoexamen),exámenescancerosos (sienalgunade las imágenesseencontró prueba histológica de cáncer). Como esta clasificación es a nivel deexamenseproponelaclasificaciónaniveldeimagendescritaenelTrabajodeFindeGrado[69],quedividelasmamografíasenloscincosiguientesgrupos:imágenescon microcalcificaciones benignas, imágenes con masas benignas, imágenes conmicrocalcificaciones cancerosas, imágenes conmasas cancerosas, e imágenes contejidonormal.

Ladescripcióndelconjuntodeimágenesqueseempleanparaentrenarlaredesalgoesencialpuessegúnseandeuntipoodeotrolaarquitecturatendráque

Page 51: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

43

diseñarse de diferente manera, teniendo en cuenta sus características. Losresultadosqueseobtienenalahoradeimplementarcualquieresquemaprofundodependeránfuertementedelosdatosconlosquelaredseaalimentada,nosolodesu contenido sino también de su tamaño, siendo siempre mejor la clasificacióncuantomayorseaelnúmerodeimágenesdelabasededatos.Alahoradetrabajarconunaseriedeimágeneshayquetenerencuentaaspectoscomolapresenciaderuido y cómo se puede eliminar, si se dispone de información adicional de lasimágenes,osilasclasesenlasquesequierenclasificarlasimágenesseencuentranen igual proporción en el conjunto de datos de entrenamiento. Esto último juntoconlasparticionesdelosconjuntosdeprueba,validaciónyentrenamientosiemprede forma aleatoria nos da la seguridad de no introducir sesgos en el métodopropuesto.

4.3.2.Pre-procesadoyadecuacióndelosdatos

Comoya se ha introducido previamente, cualquier sistemade análisis de imagenmédicasecomponedeunaseriedepartes,quecomosepuedeverenelesquemadelaFigura6son:Elpre-procesadodelasimágenes,queincluyeunaetapadefiltradoy mejora, y otra etapa de adecuación de las imágenes al modelo, la elección yconstrucción de la red para la tarea de detección/localización, y la elección delmodelo para la clasificación final de las imágenes. Cada una de ellas se detalla acontinuación.

Figura6.Secuenciadepasosdelsistemapropuesto

Mejoradelacalidaddelasimágenes

Estaprimerapartedelmodeloconsisteenlamejoradeloqueseránlasentradasdelared,yesunpasofundamentalparaqueelentrenamientodelaredseabuenoyconsecuentemente los resultados obtenidos [70]. Como es lógico pensar, estáestrechamente relacionado al tipo de imagen que tengamos y sus características.Así, aunque las imágenes de la base de datosDDSMya tienen algún tipo de pre-procesado realizado, como se puede ver en la Figura 7 es conveniente aplicarlealgunastransformacionesparamejorarlas.

Page 52: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

44

En la literatura losmétodosmásempleadosson losderealcede imágenes,quepuedenserobienderealceeneldominioespacialobienderealcebasadoencaracterísticasdelaimagen.

Los primeros realizan las modificaciones a nivel de píxel, y los máspopulares son la modificación del histograma y la aplicación de filtros linealesespaciales. Existen otras técnicas más novedosas y especialmente útiles para elrealce de características, que aunque son a nivel de píxel tienen en cuenta losvaloresdesusvecinos;esdecir,efectúanlasmodificacionesanivelderegiones.

A diferencia, los segundos modifican las imágenes en función de suscaracterísticas,relacionadasonoconlaorganizaciónespacialdelaimagen,ynoenlasdecadapíxel.Ejemplosdeellosonlatransformadawaveletyrealceporlógicadifusa.

En este trabajo se propone un pre-procesado dividido en tres pasos paraeliminar así todos los posibles tipos de ruido que se pueden encontrar en lamamografía,señaladosenlaFigura7.Apartirdelamamografíaoriginalprimerosele elimina el ruido y se le aplica un realce, y a continuación se suprimen losartefactos radiopacos y otros elementos no deseados, y se separará el pecho delfondo. Se propone seguir estos pasos en este orden, si bien se puede seguir laestrategiadelamanerainversa[71].

Primero,paraeliminarelruidoeincrementarelcontrastedelasimágenesasu vez se proponen tres métodos diferentes; la ecualización del histograma, ladescomposición de la imagen mediante paquetes wavelet, y la aplicación de unfiltrodemediana.Elprimeroesmuysencilloyefectivoypotenciaelcontrastedelos niveles de gris, permitiendo así unamejor diferenciación de los tejidos de lamamografía. Una alternativa posible a esta técnica sería aplicar una ecualizaciónadaptativa del histograma con contraste limitado o CLAHE, que reduce de formaeficazelruidoenregioneshomogéneasysurgióespecíficamenteparaaplicacionesmédicas [71]. A la hora de realizar el CLAHE es frecuente aplicar también a laimagenunfiltradodeWeiner,paraasílograrunamejoradecontrasteademásdelaeliminaciónderuido[72].Elsegundoconsisteenaplicarlealaimagenunaseriedefiltros de descomposición, una umbralización, y finalmente volver a aplicarle losfiltrosparalarecomposicióndelaimagen,lograndoasíeliminarelruidoaleatoriodedistintasfrecuencias.Elterceroyúltimoconsistebásicamenteenreemplazarelvalordecadapixelporelvalormedianadesusvecinos,yconelloselograeliminarelruidodelasimágenesmamográficastambiéndeunaformaeficaz.

Acontinuación,paraeliminarciertosartefactosquepuedenestarpresentesen las imágenes, como las etiquetas, se propone usar una serie de operacionesmorfológicas unidas a la operación de umbralización. Para ello, habría queinspeccionarlasmamografíasparavercúaleselvalordeumbralmásadecuado,yunavezelegidosepasaríanlasimágenesdeescaladegrisesabinario.Elprocesodeaplicación de las distintas operaciones morfológicas consiste básicamente enidentificarlasdiferentesregionesdelaimagenyquedarnossoloconlamásgrande,que se corresponderá con el pecho. De esta forma también se logra unasegmentacióndel fondode la imagen.Paravolvera la imagenenescaladegrisesbastaconmultiplicarelresultadoanteriorporlaimagenoriginal.

Page 53: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

45

Figura7:Mamografíaoriginalsinpre-procesarextraidadelaDDSM[73].1)Ruidodebaja

frecuencia.2)Fondo.3)Músculopectoral.4)Perfildelpecho.5)Lesiones.

Adecuacióndelasimágenes

Tal y como se explica en el apartado siguiente, la red neuronal que se pretendeemplearenestesistemaesunaredneuronalprofunda,yporlotantocompuestademuchas capas.Debido a lasmuchas capaspor las quepasan las imágenes y paraaliviar efectos de cargas computacionales altas, se opta por adecuar lasmamografíasalosrequisitosdelared.

Primero, como no todas las imágenes son del mismo tamaño, sino queestán entornoa los3000x5000píxeles, se recortan todas ellasparaque seandelmismo tamaño, seleccionando un área entorno a la región de interés, y luego sesubdividen en patchesde 32x32 píxeles. En este caso se escoge este tamaño depatch para adoptarunesquema lomás similarposible aDenseNet, peropodríanusarotrostamañosmayores(64,96,224,512tambiénseusanenotrostrabajos)siempre que fueran divisibles por 2. Subdividiendo cada imagen en otras máspequeñas se logra aumentar el conjunto de datos y reducir el tamaño de lasentradas a la red sin perder las características que se encuentra a escala muypequeña, loque sucedería si se realizaseun sub-muestreode la imagen.Además,para obtener variabilidad en las entradas y evitar el overfitting, se aplica unaestrategiatípicadeaumentodedatosmediantetransformacionesdelasimágenes,creandoasímuchasmásimágenesartificiales.Enelmodeloenelqueestábasadoesta red [23] se proponeun aumento de datos siguiendo las nociones de [22], sibienestasredessepruebanenconjuntosdeimágenesnomédicas,degrantamaño,yenalgunosdeloscasosconimágenesencolor,porloquenosecontemplacomolaaproximación más adecuada para este caso. Por otro lado, en [69] se planteaextraer aleatoriamente zonas de 24x24 píxeles de las imágenes, y aplicarlesreflexiónhorizontal.Estopodríaserunaopción,aunqueresultamásóptima laderotar las imágenes90,180y270gradosyvoltearlasqueseproponeendistintostrabajos acerca de la adecuación de las imágenesmamográficas de laDDSM [75][76],obteniendoasídeuna imagenuntotaldeochomuestras,ysinnecesidaddedisminuirmáseltamañodelosdatosdeentrada,puesseconfíaenelpoderdelaredprofundapropuestaparaextraertodaslascaracterísticasrelevantes.

Elconjuntodeimágenesquesetienensedividirádeformaaleatoriaparaobtenerlosconjuntosdeentrenamientoydepruebadelared,yasuvezdentrodelconjuntodeentrenamientoseefectuaráotradivisiónaleatoriaentreentrenamientoy validación, en una proporción 90:10, respectivamente. En ambos casos se

Page 54: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

46

aseguraráquehayaunbalanceentre losdistintos tiposde imágenesestablecidosparacadaconjunto.

4.3.3.DiseñodelaRedNeuronalConvolucionalProfunda

Comosehapodidoverpreviamente,lasCNNspresentanmuybuenosresultadosala hora de trabajar en la clasificación de lesiones de imágenesmédicas, tanto entiempo como en precisión. Sin embargo, tienen un problema principal; no soncapacesdelocalizarlaslesionesporsísolasdeunaformasuficientementeprecisa.LaexplicaciónparaestoesquenoexistenBBDDconinformaciónaniveldepixel,sino solo a nivel de imagen, es decir, lo normal es que lasmamografías contenganinformacióndesipresentanalgúntumorono,deltipodetumor,etc.peronoquetengan localizadas y señaladas todas y cada una de las lesiones presentes, puestenerestoseríaunatareaimposible.

Por ello, últimamente se está investigando acerca de modelos másprofundos,comopuedenserlasredesInception[20][21],HighwayNetworks[74],ResNet[22],paralograrcaracterísticasmásocultasdelasimágenes.Laideabásicade su funcionamiento es que, a más capas, mayor capacidad de captarcaracterísticas más abstractas de las imágenes, obteniendo conjuntos decaracterísticasmáscompletos,yenúltimainstanciaclasificacionesmejores.

Trasestudiar laestructuradeestosmodelos,apesardesubaja tasadeerror,surgenalgunosproblemas,principalmenteelenormenúmerodeparámetrosque introducen tantas capas con tantas conexiones, ademásdeotros subyacentescomolaperdidade informacióna lo largode lareddebidoasu longitud.ConesamotivaciónafinalesdelañopasadoapareceDenseNet[23],unmodeloqueconfíaenconectar cada una de las capas con todas sus siguientes por concatenación. Estoayuda entre otras a incrementar la variabilidad de las entradas de las siguientescapas (reutilización de características), a mejorar el flujo de información entrecapas,alasupervisióndelared,yareducirelnúmerodeparámetros,paralocualagrupalascapasenbloquesdensos.

Alavistadelosbuenosresultadosqueobtieneendistintosconjuntosdedatos,yporelinterésquesuscitaelnovedosoesquemadelared,enestetrabajosediseñaunaCNNprofunda cuya estructura está basada en la deDenseNet, y cuyoesquemageneralsemuestraenlaFigura8.

Enestasecciónseexplicaprimero laestructurade laredqueextrae lascaracterísticas,detallandosusparámetrosycapas,yacontinuaciónlaclasificaciónrealizadadelasimágenes.Laadecuacióndelasimágenes(enelesquema“Patches32x32”)sehatratadoenlassecciónanterior.

Así,lafasedeextraccióndecaracterísticasyreduccióndeparámetrossecompone por una capa convolucional inicial (CONV) y una superposición debloquesdensosy capasde transición (TRANS). Lasdos capasde transiciónestánformadas por una capa convolucional (CONV) y una de agrupamiento (POOL),mientras que cada uno de los bloques densos agrupa a un conjunto de capasconvolucionalestodasellasconelmismotamañodefiltro.

Page 55: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

47

Figura8.Estructuradelaredconvolucionalprofundapropuestaenestetrabajo(capasynúmero

desalidasporcapa).

Tabla3:Resumendecaracterísticasdecadacapaqueformanlaredpropuesta.

La primera capa en la red es una capa convolucional CONV, en la cual se

aplicalaoperacióndeconvoluciónparaprocesarlaspartesdelaimagendeentradaextraídasenlaetapaanterior.Aunqueen[23]seproponeusarunfiltrodetamaño7x7,seeligeenestecasounfiltrodetamaño5x5,siguiendoloestablecidoen[69]paraestaprimerafase,ydadoquelasbuenasprácticasseñalanemplearfiltrosdetamañopequeño,puessereduceasíelnúmerodepesosdelared.

Enunaoperacióndeconvoluciónelpíxeldesalidasecalculacomounasumaponderadade lospíxelesvecinosyquedependedelnúcleode la convolución.Deestaforma,variandolosvaloresdelnúcleoseobtienenfiltrospersonalizadosparaobtenerdistintascaracterísticasdelaimagenycomoresultadoquedaunaimagenfiltradaenlaquecadanuevopíxelcontieneinformacióndelospíxelesvecinosenlarelacióndefinidamedianteelnúcleodeconvolución.

Paraprevenirquelaredsehagademasiadoprofundaymejorarlaeficienciade los parámetros, el número de filtros por viene limitado por la tasa decrecimiento de la red (k), y lo común es darle como valor un número entero

Page 56: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

48

pequeño, pues aunque el número de mapas de características de salida no seaexcesivamente grande, gracias a la conformación de la red en bloques densos seconsiguen buenos resultados. Así, en este caso y siguiendo [23] se escoge untamañodek=32,yelnúmerode filtrosdeestaprimeracapaseeligede16,paracada canal, 3 en este caso. Por lo tanto, tras pasar esta primera capa lasdimensionesdeelvolumendeentradahabránpasadodeserde32x32x3aserde32x32x16.Encualquier caso, en las capasCONVsebuscamantener ladimensiónespacial del volumen de entrada a la salida. Por ello en este caso se emplea unstride=1(S)yunpadding=2(P).ParacalcularlasdimensionesdelasalidaseusalaEcuación(1)acontinuación,dondeOrepresentaalasalida(output),Ialaentrada(input)yFaltamañodelfiltro(filter)[7].

O = I−F+2PS +1 (1)

Además,estaprimeracapaconvolucióntieneaplicadatrasellaunafunción

deactivaciónReLU(RectifiedLinearUnit),queesunafuncióndeactivaciónbasadaenloselementosyquenovaríalasdimensionesdelvolumen.

Los pesos de una neurona definen los filtros aplicados en la convolución.Dado que en el número de pesos en una neurona corresponde al producto deltamañodelfiltroyelnúmerodecanalesdelaentrada,enelcasodelacapaCONVcadaneuronatendráuntotalde5∙5∙3=75pesosdistintos,estandoestospesoscompartidosportodaslasneuronasdeestacapa.

Trasestaprimeracapaentraen funcionamiento loquesería lapartede lared basada en la arquitectura de DenseNet. En esta arquitectura las capas seorganizan por bloques, de forma que cada uno de los bloques agrupa a todasaquellascapasconelmismonúmerodefiltros,siendoelnúmerodefiltrosdistintoentre bloques. En este caso se usan 6, 12 y 24 filtros para los bloques 1, 2 y 3,respectivamente.Encadabloquecadaunadesuscapasseconectaconelrestodecapas hacia delante, teniendopor lo tantomúltiples conexiones directas, en totalL(L+1)/2conexiones,dondeLrepresentaelnúmerodecapas(layers),adiferenciadeenunaCNNtradicionaldondesetendríanLconexiones.Así,paracadacapalosmapas de características de las capas anteriores se utilizan como entrada, y supropiomapa de características se utilizará como entrada de todas las siguientes.Porlotanto,lainformaciónobtenidaencadacapasevaañadiendoalainformaciónyaaveriguadaporconcatenación, loquehacequelareddiferencieexplícitamenteentrelainformaciónnuevaqueseestáañadiendoylainformaciónquesepreservayquenotienequeañadirpuestoqueseríaredundante.Estepatróndeconectividadtan denso es lo que le da nombre la red y también a estos bloques, que sedenominan“bloquesdensos”.

Así,paraelprimerbloquedensodelared,setienek=6yporlotantosolo6mapas de características por capa en este bloque, siendo notablemente másestrechosquelohabitualenunaredprofunda.Encadaunadeestascapassetienendos filtrosCONV,primerounode tamaño1x1, que funciona amodode cuellodebotella,yacontinuaciónotrodetamaño3x3.Lascapasconvolucionales“cuellodebotella” se introducen para reducir el número demapas de características, dadoque aunque cada capa produce solo k mapas de características de salida,normalmente tiene más entradas. Además, con ello se logra incrementar la

Page 57: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

49

eficienciacomputacional. Lasalidadeestebloqueesunmapadecaracterísticasdedimensiones32x32x6.

LaconexiónentrelasLcapasrealizadaentrecadaunodeestosbloquesnoviene marcada únicamente por una función ReLU como pasaba para la primeracada del modelo. Tampoco emplea únicamente normalización por lotes (BatchNormalization, BN) como hacen otros modelos anteriores [22]. A diferenciaimplementaunatransformaciónnolineal,queenlaEcuación(2)denominamosHl,que es una función compuesta por normalización por lotes (BN) seguida de unaunidadlinealrectificada(ReLU),ytrasellaseaplicalaconvolución.Deformamásespecífica,paraestebloquedenso,yparacadaunodelosdosquesiguensetendríauna estructura BN-ReLU-Conv(1x1)-BN-ReLU-Conv(3x3). Consecuentemente, elestadodeunmapadecaracterísticasdadovienedescritopor:

Xl=Hl([xo,x1,…,xl-1]) (2)

dondelostérminosentreparéntesisdenotanlasusodichaconcatenaciónentrelasdistintascapasdelbloque.Laoperacióndeconcatenacióntieneelrequisitodequelos mapas de características no pueden ser tamaños diferentes, y de ahí laagrupaciónenbloquesdensosdelascapas.

Tras haberse realizado el primer de extracción de características, seintroduce su salida comoentradadeuna capade transiciónTRANS, formadaporuna capa de convolución de 1x1, y a continuación se pasa por una capa deagrupaciónPOOL,queeslaqueseencargadereducirlasdimensionesespacialesdela entrada. Aunque en la Sección 2 se decía que la estrategia de agrupaciónmáshabitualeralademax_pooling,paraestaredseproponeusarunaverage_poolingodemedia, siguiendo las directrices de [23]. La cantidad de datos en este caso esreducidademaneraqueseponenencomúnlospixelesdeciertazonadelaimagenysecalculalamediadeestospíxeles,queesloquesedevuelvecomosalida.Sehaescogidounaagrupamientoconuntamañodefiltrode2x2,stride=2ypadding=0,deformaquesedescartanexactamenteel75%delasactivacionesenunvolumendeentrada,porquesereducenlasdimensionesalamitadtantoenlaalturacomoenla anchurade la imagen.Así, traspasarel volumenporesta capa seobtendráunvolumendesalidadedimensiones16x16x6.

El siguiente bloque denso y la siguiente capa de transición funcionan deformaanálogaalasanteriores,peroenestecasoelbloquedensoestáformadopor12filtros,ypormásneuronas,porlotanto,ydevuelveunmapadecaracterísticasde tamaño 16x16x12, y la capa de transición se encarga de volver a reducir lasdimensiones del volumen, resultando en un volumen de salida de la capa detransición2detamaño8x8x12,queseráentradadeunúltimobloquedenso.Esteúltimobloquedensoestá formadopor24capasagrupadasquecompartenpesos,como hasta ahora, y por lo tanto su salida será un mapa de características dedimensiones8x8x24.

Finalmente,yantesdeintroducirlosdatosresultantesenelclasificadorparaqueefectúesufuncióndeclasificador,sevuelveapasarelvolumenporunacapadeagrupamientoparaobtenerunvectordedimensiones1x1x(nºdeclases).Enestecaso se emplea una función de agrupamiento de pooling de media global contamañodefiltro8x8,stride=1ypadding=0,calculadosegúnlaEcuación(1).

Page 58: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

50

Paraelegirelclasificador,sehapensadoenelsistemapropuestocomounaayudaparaelprofesional,unavezdetectadasylocalizadasdeformaprecisatodasycadaunadelaslesiones,lomásútilesqueelsistemaproporcioneunresultadoqueel medico pueda emplear intuitivamente. Por ello se propone emplear unclasificador sencillo con pocas clases como salida. Las aproximaciones másempleadas en la literatura, como se ha visto previamente, son los clasificadoresSVM,RandomForests,oSoftmax.

EnestecasoseempleaunclasificadorSoftmax[12],comoúltimacapadelared,quesedefinecomounaredneuronaldedoscapas,delascualesunadeellases una capa convolucional pre-entrenada, y por lo tanto supervisada. Una de lascausasporlaqueseeligeesteclasificadoresquedevuelveprobabilidadesenlugardemárgenes,lascualessonmuchomásfácilesdeinterpretarparaunhumano(noesasíporejemploparaelSVM).Parahaceresto,primeroasignaunaspuntuacionesdeprobabilidad logarítmicasnonormalizadaspara cada clase, y luego calcula lasprobabilidadesnormalizadas, de formaque, en este caso lade la clase incorrecta(máspequeña)yladelacorrecta(másgrande)debendesumaruno.Esdecir,comose tienen cinco tipos de clases de salida [normal,masa_benigna,masa_cancerosa,microcalcificación_benigna,microcalcificación_cancerosa],elclasificadordevolveráun vector de tamaño fijo 1x1x5, como por ejemplo [0.9, 0.03, 0.01, 0.05, 0.01],donde se indica en este caso concreto que esmuy improbable que este pacientetenga cáncer. Cabe destacar que para tomar esta decisión el clasificador habrátenidoencuentatodosycadaunode losmapasdecaracterísticasde lared,puesestossehanidosumandocondicionalmentelosunosalosotroshastallegaralfinal,comoasíloproponeDenseNet[23].

5.ConclusionesytrabajosfuturosEn el presente trabajo se han estudiado las bases del Aprendizaje Profundo asícomolosdistintosmodelosqueseemplean,ylasaplicacionesdeestastécnicas.Conello se ha aprendido en qué consiste este campo que recientemente ha logradotantaatención,conelobjetivodedespertarelinterésenestastécnicas.Eltrabajohasidoenfocadohaciaelanálisisdeimágenesmédicas,averiguandoelsorprendentenúmero de aplicaciones en distintos órganos y con distintos fines que estosmodelosprofundosestánabarcando.

Partiendo de los buenos resultados que logran, se resalta una vez más lacreciente importancia de los sistemas de ayuda a la detección y a la decisión enaplicaciones médicas que, sin reemplazar totalmente al profesional, le puedenservirdegrandísimaayuda,facilitandosulaborasícomoproporcionandomejoresdiagnósticosydemásserviciosalospacientes.

En concreto se ha querido centrar el estudio de estos algoritmos enimágenesmamográficas,alverqueeraunade las líneasconmás investigaciones.Para ello se ha hecho una profunda revisión bibliográfica de los artículosconsideradosmásrelevantesdelosúltimosaños,conlaquesehalogradotenerunacompleta visión de qué y cómo se está logrando automatizar la detección delesionesy laclasificacióndetumoresen imágenesde lasmamas.Sehaaprendidocómoseimplementanlosalgoritmosyquenoexisteunareglaparaquefuncionen,sinoqueesnecesariounestudioheurístico;laimportanciadeestudiarelconjunto

Page 59: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

51

deimágenesydeadecuarlasalaredparaobtenerbuenosresultados;cómoleerlosresultados,quéhacerparamejorarlos,etc.

Además, se han revisado los artículos relativos a los modelos de redesconvolucionales profundasmásutilizados en visiónpor ordenador.De la falta deaplicación de este tipo de redes al análisis de imagen médica, y entendidos losproblemas con los que se enfrentan las redes neuronales más tradicionales hasurgidolamotivacióndeestetrabajo:diseñarunaredconvolucionalprofundaquese pueda emplear para el análisis de lesiones en mamografía. Este tipo de redaliviaríalosproblemasdeampliasbasesdedatosanotadasrequeridas,demédicosque tienenque señalar lesiones en las imágenes antes o localizar las regionesdeinteréscomofasepreviaalentrenamientodelalgoritmo,decostescomputacionalesaltos, o de localizaciones imprecisas de las lesiones; todos ellos comentados a lolargodeestetrabajo.

Laredquesehadiseñado,aunquefundamentadaenconceptosteóricosyenotrostrabajos,essolounesquema,yporelloseríaunbuentrabajofuturoydegraninteréspoderimplementarlayprobarla.Dadoquesedisponedelabasededatosydel software necesario, se pretende dejarlo como una línea abierta para que seacontinuada,deformaqueapartirdeestetrabajoseafáctiblelaimplementacióndeesta red y la interpretación de los resultados, buscando como mejorarlos ycomparándolosconlosdeotrostrabajos.

Así,sepuedeconcluirdiciendoquelosresultadosobtenidosenesteTFGsonmuy satisfactorios, pues aun no habiendo implementado la red diseñada, se haestudiado de forma exhaustiva el aprendizaje profundo en imagen médica, uncampotodavíamuynuevoyquesuscitaungraninterés,aprendiendomultituddeconceptos acerca de él y teniendo en estos momentos las bases necesarias paradesarrollar más estudios en relación con la Inteligencia Artificial, tanto teóricoscomoprácticos.

6.Bibliografía

[1]IanGoodfellow,YoshuaBengio,AaronCourville.DeepLearning(2016).[2]LiDeng,DongYu.DeepLearning:MethodsandApplications(2014).

[3]YanmingGuo,YuLiu,ArdOerlemans,SongyangLao,SongWu,MichaelS.Lew.DeepLearningforvisualunderstanding:Areview(2015).

[4] Geert Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra AdiyosoSetio,FrancescoCiompi,MohsenGhafoorian,JeroenA.W.M.vanderLaak,Bramvan Ginneken, Clara I. Sánchez. A Survey on Deep Learning inMedical ImageAnalysis(2015).

[5]JürgenSchmidhuber.DeepLearninginNeuralNetworks:AnOverview(2016).[6] Damián Jorge Matich. Redes Neuronales: Conceptos Básicos y Aplicaciones

(2001).

Page 60: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

52

[7] University of Standford. [En linea] Convolutional Neural Networks for VisualRecognition. Convolutional Neural Networks(http://cs231n.github.io/convolutional-networks/).

[8] A. Krizhevsky, I. Sutskever, G.E. Hinton, Imagenet classification with deepconvolutionalneuralnetworks.En:ProceedingsoftheNIPS(2012).

[9]AmalFarag,LeLu,HolgerR.Roth,RonaldM.Summers.ABottom-UpApproachforPancreasSegmentationUsingCascadedSuperpixelsand(Deep)ImagePatchLabeling(2016).

[10]MinLin,QiangChen, ShuichengYan.Networkinnetwork. En:ProceedingsoftheICLR(2013).

[11]Universityof Standford. [En linea]ConvolutionalNeuralNetworks forVisualRecognition[RepositoryofStanford'sCS231nGITHUB.]

[12]Universityof Standford. [En linea]ConvolutionalNeuralNetworks forVisualRecognition. Linear Classification (http://cs231n.github.io/linear-classify/#softmax).

[13]C.Szegedy,W.Liu,Y.Jia,etal.Goingdeeperwithconvolutions.En:ProceedingsoftheCVPR(2015).

[14]G.E.Hinton,N. Srivastava, A. Krizhevsky, et al. Improvingneuralnetworksbypreventingco-adaptationoffeaturedetectors(2012).

[15]N.Srivastava,G.Hinton,A.Krizhevsky,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting(2014).

[16] L. Wan L, M. Zeiler, S. Zhang, et al. Regularization of neural networks usingdropconnect.En:ProceedingsoftheICML(2013).

[17] A. Krizhevsky, I. Sutskever, G.E. Hinton. Imagenet classification with deepconvolutionalneuralnetworks.En:ProceedingsoftheNIPS(2012).

[18] K. He, X. Zhang, S. Ren, et al. Spatial pyramid pooling in deep convolutionalnetworksforvisualrecognition.En:ProceedingsoftheECCV(2014).

[19] Karen Simonyan, Andrew Zisserman. Very Deep Convolutional Networks forlarge-scaleimagerecognition.(2015)

[20] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed,Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, AndrewRabinovich.GoingDeeperwithConvolutions(2015).

[21]ChristianSzegedy,VincentVanhoucke,SergeyIoffe,ZbigniewWojna,JonathonShlens.RethinkingtheInceptionArchitectureforComputerVision(2015).

[22]KaimingHe,XiangyuZhang,ShaoqingRen,JianSun.DeepResidualLearningforImageRecognition.

[23]GaoHuang,ZhuangLiu,KilianQ.Weinberger,LaurensvanderMaaten.DenselyConnectedConvolutionalNetworks(2016).

[24] O. Russakovsky, J. Deng, H. Su, et al. Imagenet large scale visual recognitionchallenge.Int.J.Comput.Vis.115(3)(2015)p.211–252.

[25]C.Szegedy,A.Toshev,D.Erhan.Deepneuralnetworksforobjectdetection.En:

Page 61: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

53

ProceedingsoftheNIPS(2013).

[26] B. Zhou, V. Jagadeesh, R. Piramuthu. ConceptLearner: discovering visualconcepts fromweakly labeled image collections. En: Proceedings of the CVPR(2015)

[27]X.Liang,S.Liu,Y.Wei, etal.Towardscomputationalbabylearning:aweakly-supervisedapproachforobjectdetection.En:ProceedingsoftheICCV(2015).

[28]Ronneberger,O., Fischer,P.,Brox,T., 2015.U-net:Convolutionalnetworksforbiomedical imagesegmentation.En:Medical ImageComputing andComputer-AssistedIntervention.

[29] Moeskops, P., Wolterink, J. M., Velden, B. H. M., Gilhuijs, K. G. A., Leiner, T.,Viergever, M. A., Isgum, I.. Deep learning for multi-task medical imagesegmentation in multiple modalities. In: Medical Image Computing andComputer-AssistedIntervention(2016).

[30]Li,R.,Zhang,W.,Suk,H.-I.,Wang,L.,Li, J., Shen,D., Ji, S..Deeplearningbasedimaging data completion for improved brain disease diagnosis. En: MedicalImageComputingandComputer-AssistedIntervention(2014).

[31]Hosseini-Asl,E.,Gimel’farb,G.,El-Baz,A..Alzheimer’sdis-easediagnosticsbyadeeplysupervisedadaptable3Dconvolutionalnetwork(2016).

[32] Payan, A., Montana, G.. Predicting Alzheimer’s disease: a neuroimaging studywith3Dconvolutionalneuralnetworks(2015).

[33]Abramo,M.D.,Lou,Y.,Erginay,A.,Clarida,W.,Amelon,R.,Folk,J.C.,Niemeijer,M.. Improved automated detection of di- abetic retinopathy on a publiclyavailabledatasetthroughintegrationofdeeplearning(2016).

[34]Paeng,K.,Hwang, S., Park, S.,Kim,M.,Kim, S..Aunifiedframeworkfortumorproliferationscorepredictioninbreasthistopathology(2016).

[35]Poudel, R. P. K., Lamata, P., Montana, G.. Recurrent fully convolutional neuralnetworksformulti-sliceMRIcardiacsegmentation(2016).

[36]Kong,B., Zhan,Y., Shin,M.,Denny,T., Zhang, S..Recognizingend-diastoleandend-systoleframesviadeeptemporalregressionnetwork(2016).

[37] Berkman Sahiner, Heang-Ping Chan, Nicholas Petrick, Datong Wei, Mark A.Helvie, Dorit D. Adler, and Mitchell M. Goodsitt. Classification of Mass andNormal Breast Tissue: A Convolutional Neural Network Classifier with SpatialDomainandTextureImages(1995).

[38] AECC. [En línea] (2014).(https://www.aecc.es/SobreElCancer/CancerPorLocalizacion/CancerMama/Paginas/cancerdemama.aspx).

[39] Instituto Nacional del cáncer. [En línea](https://www.cancer.gov/espanol/tipos/seno).

[40] World Cancer Research Fund International. Statistics. [En línea] (2012).(http://www.wcrf.org/int/cancer-facts-figures/data-specific-cancers/breast-cancer-statistics).

[41]Breastcancer.org.[Enlínea](2006).(http://www.breastcancer.org).

Page 62: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

54

[42]AndrewR.Jamieson,KarenDrukker,MaryellenL.Giger,BreastImageFeatureLearningwithAdaptiveDeconvolutionalNetworks(2016).

[43]NeerajDhungel,GustavoCarneiro,AndrewP.Bradley.AutomatedMassDetectionfromMammogramsusingDeepLearningandRandomForest.

[44]PabloFonseca,JulioMendoza,JacquesWainer,JoseFerrer,JosephPinto,JorgeGuerrero, Benjamin Castaneda. Automatic breast density classification using aconvolutionalneuralnetworkarchitecturesearchprocedure(2016).

[45]AyeletAkselrod-Ballin,LeonidKarlinsky,SharonAlpert,SharbellHasoul,RamiBen-Ari, Ella Barkan. A Region Based Convolutional Network for TumorDetectionandClassificationinBreastMammography(2016).

[46] John Arevalo, Fabio A. González, Raúl Ramos-Pollán, Jose L. Oliveira,MiguelAngel Guevara Lopez. Representation learning for mammography mass lesionclassificationwithconvolutionalneuralnetworks(2015).

[47]Dalmis,M.,Gubern-Mérida,A.,Vreemann,S.,Karssemeijer,N.,Mann,R.,Platel,B., 2016. A computer-aided diagnosis system for breast DCE-MRI at highspatiotemporalresolution.

[48]A.Dubrovina ,P.Kisilev,B.Ginsburg,S.Hashoul&R.Kimmel.Computationalmammographyusingdeepneuralnetworks(2016).

[49] Neeraj Dhungel, Gustavo Carneiro, Andrew P. Bradley. Deep Learning andStructuredPredictionfortheSegmentationofMassinMammograms(2016).

[50]SergeiV.Fotin,YinYin,HrishikeshHaldankar, JeffreyW.Hoffmeister,SenthilPeriaswamy.Detectionofsofttissuedensitiesfromdigitalbreasttomosynthesis:comparisonofconventionalanddeeplearningapproaches(2016).

[51] SangheumHwang and Hyo-Eun Kim. Self-Transfer Learning for FullyWeaklySupervisedObjectLocalization(2016).

[52] Huynh, B. Q., Li, H., Giger, M. L., Jul 2016. Digital mammographic tumorclassificationusinglearningfromdeepconvolutionalneuralnetworks(2016)

[53] Michiel Kallenberg, Kersten Petersen, Mads Nielsen, Andrew Y. Ng, PengfeiDiao, Christian Igel, CelineM. Vachon, KatharinaHolland, RikkeRassWinkel,NicoKarssemeijer,andMartinLillholm.UnsupervisedDeepLearningAppliedtoBreastDensitySegmentationandMammographicRiskScoring(2016).

[54] Kisilev, P., Sason, E., Barkan, E., Hashoul, S. Medical image description usingmulti-task-loss CNN (2016). En: International Workshop on Large-ScaleAnnotationofBiomedicalDataandExpertLabelSynthesis.

[55]Kooi,T.,Litjens,G.,vanGinneken,B.,Gubern-Mérida,A.,Sánchez,C.I.,Mann,R.,denHeeten,A., Karssemeijer,N..Largescaledeep learning forcomputeraideddetectionofmammographiclesions(2016).En:MedicalImageAnalysis35,303–312.

[56] Qiu, Y., Wang, Y., Yan, S., Tan, M., Cheng, S., Liu, H., Zheng, B.. An initialinvestigation on developing a newmethod to predict short-term breast cancerriskbasedondeeplearningtechnology(2016)..

[57] Samala, R. K., Chan, H.-P., Hadjiiski, L., Cha, K., Helvie,M. A..Deep-learning convolution neural network for computer- aided detection of

Page 63: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

55

microcalcificationsindigitalbreasttomosynthesis(2016).En:MedicalImaging..

[58] Samala, R. K., Chan, H.-P., Hadjiiski, L., Helvie, M. A., Wei, J., Cha, K..Massdetection in digital breast tomosynthesis: Deep convolutional neural networkwithlearningfrommammography(2016).

[59]Sun,W.,Tseng,T.-L.B.,Zhang,J.,Qian,W..Enhancingdeepconvolutionalneuralnetwork scheme for breast cancer diagnosis with unlabeled data (2016). En:ComputerizedMedicalImagingandGraphics.

[60] Zhang, Q., Xiao, Y., Dai,W., Suo, J.,Wang, C., Shi, J., Zheng, H..Deep learningbasedclassificationofbreasttumorswithshear-waveelastography(2016).

[61] Kooi, T., van Ginneken, B., Karssemeijer, N., den Heeten, A.. Discriminatingsolitary cysts fromsoft tissue lesions inmammographyusingapretraineddeepconvolutionalneuralnetwork(2017).En:MedicalPhysics.

[62] Wang, J., Ding, H., Azamian, F., Zhou, B., Iribarren, C., Molloi, S., Baldi, P..Detecting cardiovascular disease from mammo- grams with deep learning(2017).En:IEEETransactionsonMedicalImaging.

[63] D. Selvathi and A. Aarthy Poornila. Breast Cancer Detection InMammogramImagesUsingDeepLearningTechnique(2017).

[64]Hinton,G.E.,andSalakhutdinov,R.R..ReducingtheDimensionalityofDatawithNeuralNetworks.En:Science313(5786),504-507(2006).

[65]AmericanCancerSociety(Cancer.org)[Enlínea]–Comoentendersuinformede mamograma – Puntuaje BI-RADS:(https://www.cancer.org/es/cancer/cancer-de-seno/pruebas-de-deteccion-y-deteccion-temprana-del-cancer-de-seno/mamogramas/como-entender-su-informe-de-mamograma.html).

[66]Mammographic Image Analysis Homepage – Databases. [En línea](http://www.mammoimage.org/databases/)

[67]M.Heath,K.Bowyer,D.Kopans,R.Moore,andW.P.Kegelmeyer.Thedigitaldatabaseforscreeningmammography.

[68]M.Heath,K.Bowyer,D.Kopans,P.Kegelmeyer Jr,R.Moore,K.Chang,andS.Munishkumaran. Current status of the digital database for screeningmammography.

[69]GonzalezBuenoPuyal, Juana.Desarrollodeunaherramientaparaladetecciónde tejidos anómalos en mamografías digitales mediante redes neuronalesconvolucionales.

[70] Matteo Roffilli. Advanced Machine Learning Techniques for DigitalMammography(2016).

[71]SamirBandyopadhyay.Pre-processingofMammogramImages(2010).

[72]AzizMakandar,BhagirathiHalalli.Pre-processingofMammographyImageforEarlyDetectionofBreastCancer(2016).

[73]UniversityofSouthFlorida.ComputerVisionandPatronRecognitionGroup–DDSM[Enlínea].

[74]R.K.Srivastava,K.Greff,andJ.Schmidhuber.Trainingverydeepnetworks.En:

Page 64: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

56

NIPS(2015).

[75]M.MohsinJadoon,QianniZhang,IhsanUlHaq,SharjeelButtandAdeelJadoon.Three-ClassMammogramClassificationBasedonDescriptiveCNNFeatures.

[76]Darvin Yi, Rebecca Lynn Sawyer, David Cohn, Jared Dunnmon, Carson Lam,Xuerong Xiao, Daniel Rubin. Optimizing and Visualizing Deep Learning forBenign/MalignantClassificationinBreastTumors(2017).

[77] Carl J. Vyborny and Maryellen L. Giger. Computer Vision and ArtificialIntelligenceinMammography(1993).

ANEXO I – ACRÓNIMOS

DLMIACNNRNNDNNMLPCTUSMRIRXRBMSAECSAESVMROIRBFNINSPPFCNDBMDEMAEDAECAECBIRCFMHCICADeCADXCRFBBDDTUPACNLP

DeepLearningMedicalImageAnalysisConvolutionalNeuralNetworksRNeuralNetworksDeepNeuralNetworksSistemadeAyudaalaDecisiónComputerizedTomographyUltrasonidosMagneticResonanceImageRayos-XRestrictedBoltzmannMachinesSparseAutoEncoderContractiveSparseAutoEncoderSupportVectorMachinesRegionOfInterestRadialBasisFunctionNetworkinNetworkSpatialPyramidPoolingFullyConnectedNetworkDeepBoltzmanMachinesDeepEnergyModelsAutoencoderDenoisingAutoencoderContractiveAutoencoderContent-BasedImageRetrievalConvolutionalFeatureMaskingHumanComputerInteractionComputerAidedDetectionComputerAidedDiagnosisConditionalRandomFieldBasesdeDatosTumorProliferationAssessmentChallengeNaturalLanguageProcessing

Page 65: DISEÑO DE UNA METODOLOGÍA PARA EL …oa.upm.es/47315/1/PFC_ELIA_PEREZ_PEREZ_2017.pdf · pueden encontrar, existen algunos como las redes neuronales convolucionales (CNNs), los autocodificadores

57