estudio de imÁgenes de resonancia …diposit.ub.edu/dspace/bitstream/2445/103767/2/memoria.pdf ·...

44
Trabajo de Final de Grado GRADO DE INGENIERIA INFORMÁTICA Facultad de Matemáticas Universitat de Barcelona ESTUDIO DE IMÁGENES DE RESONANCIA MAGNÉTICA FUNCIONAL EN REPOSO PARA LA PREDICCIÓN DE VARIABLES PERSONALES Juan Luis Moral Pérez Directora: Laura Igual Realizado a: Departamento de Matemáticas e Informática Barcelona, 30 de junio de 2016

Upload: hoangnhan

Post on 30-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Trabajo de Final de Grado

GRADO DE INGENIERIA INFORMÁTICA

Facultad de Matemáticas Universitat de Barcelona

ESTUDIO DE IMÁGENES DE RESONANCIA MAGNÉTICA FUNCIONAL EN REPOSO PARA

LA PREDICCIÓN DE VARIABLES PERSONALES

Juan Luis Moral Pérez

Directora: Laura Igual Realizado a: Departamento de Matemáticas e Informática Barcelona, 30 de junio de 2016

«Esprecisosacudirenérgicamenteelbosque

delasneuronascerebralesadormecidas;esmenesterhacerlasvibrarconlaemocióndelonuevo

einfundirlesnoblesyelevadasinquietudes.»

RAMÓNYCAJAL

i

Abstract

Thisprojectisfocusedonthecreationofaclassificationsystemthatseparatesagroupofsubjectsaccordingtotheirgenderbasedondatafrommagneticresonanceimages(MRI)inarestingstate.

TheimagesfromMRIinarestingstateareatooltomeasurethebrainconnectivityorfunctioningthatiscurrentlybeingusedformanyneurosciencestudies.

Thisproject,inparticular,usestherepresentationoffactsbasedontheNetworkinaresting state to characterize the functional connectivity of the subjects for thevisualizationoftheobtainedresults.

As well as evaluating the accuracy of the classification system developed, anotherobjective of the project is to determine which of the cerebral networks are morediscriminativeinthetaskofseparatingmenandwomen.

The mothodology utilized combines two types of automatic learning: unsupervisedlearning,as intheIndependentComponentesAnalysisandthePrincipalComponentsAnalysis,andsupervisedlearning,asistheK-NNandSVMclassifiers.

Theresultsobtainedarepromising,becauseitfindsaRSNthatdiscriminatesbothsexandwealsonotethatthePrincipalComponentAnalysisdoesnotaffectwhenclassifying.

Keywords: resting state, fMRI, Independent Component Analysis, Dual Regession,PrincipalComponetAnalysis,SVM

ii

Resum

Aquestprojecteestàenfocat a la creaciód'un sistemade classificacióque separiunconjuntdesubjectes,segonselseusexe,apartirdedadesd'imatgesperressonànciamagnèticaenestatderepòs.

Lesimatgesperressonànciamagnèticaenestatderepòssónunaeinapermesurarlaconnectivitat cerebral o funcional, que actualment s'està utilitzant en nombrososestudisdeneurociència.

Enparticular,enaquestprojecte,esfaúsdelarepresentaciódelesdadesbasadaenXarxesenestatderepòspercaracteritzarlaconnectivitatfuncionaldelssubjectes,iperalavisualitzaciódelsresultatsobtinguts.

Amésd'avaluarlaprecisiódelsistemadeclassificaciódesenvolupat,unaltreobjectiudelprojecteésesbrinarquinsd'aquestesxarxescerebralssónmésdiscriminadorsenaquestatascadesepararhomesidones.

La metodologia utilitzada combina dues tipologies d'aprenentatge automàtic:l'aprenentatgenosupervisat,coml'AnàlisideComponentsIndependentsil'AnàlisideComponentsPrincipals;iaprenentatgesupervisat,comelsclassificadorsK-NNiSVM.

Les dades obtingudes són prometedores, ja que s'aconsegueix trobar una RSN quediscriminatotsdossexes i,amés,aconseguimobservarque l'AnàlisideComponentsPrincipalsnoafectaal'horadelaclassificació.

Paraulesclau:estatderepòs,fMRI,AnàlisideComponentsIndependent,RegressióDual,AnàlisideComponentsPrincipals,SVM

iii

Resumen

Esteproyectoestáenfocadoalacreacióndeunsistemadeclasificaciónquesepareunconjunto de sujetos según su sexo a partir de datos de imágenes por resonanciamagnéticaenestadodereposo.

Lasimágenesporresonanciamagnéticaenestadoderepososonunaherramientaparamedir la conectividad cerebral o funcional que actualmente se está utilizando ennumerososestudiosdeneurociencia.

Enparticular,enesteproyecto,sehaceusodelarepresentacióndelosdatosbasadaenRedesenestadodereposoparacaracterizarlaconectividadfuncionaldelossujetosyparalavisualizacióndelosresultadosobtenidos.

Ademásdeevaluarlaprecisióndelsistemadeclasificacióndesarrollado,otroobjetivodelproyectoesaveriguarcuálesdeestasredescerebralessonmásdiscriminativasenestatareadesepararhombresymujeres.

La metodología utilizada combina dos tipologías de aprendizaje automático: elaprendizaje no supervisado, como el Análisis de Componentes Independientes y elAnálisisdeComponentesPrincipales;yaprendizajesupervisado,comolosclasificadoresK-NNySVM.

Los datos obtenidos son prometedores, ya que se consigue encontrar una RSN quediscrimineambossexosyademáslogramosobservarqueelAnálisisdeComponentesPrincipalesnoafectaalahoradeclasificar.

Palabras clave: estado de reposo, fMRI, Análisis de Componentes Independiente,RegresiónDual,AnálisisdeComponentesPrincipales,SVM

iv

Agradecimientos

QuisieraagradeceravariaspersonaslaayudaquemehanprestadoenlarealizacióndeesteTrabajoFinaldeGrado.Enprimerlugar,amidirectoradelproyecto,LauraIgual,porsuexcelentetrabajo,elconocimientoofrecidocongenerosidad,laasistenciaysuapoyoconstante, así comosu confianzaypaciencia,quemeha transmitidodurantetodoelproyecto.Hasidounverdaderoplacertrabajarconella.

AMartaNúñez,porlagranayudaquemehadadocuandolohenecesitado.

A mi familia y amigos, por la motivación que me han infundido durante el largotranscursodeesteproyecto.

Paraconcluiresteapartadodeagradecimientos,deboprecisarque,sinalgunasdeestaspersonasmencionadas,estetrabajonohubieravistolaluz.

v

Índice

1 INTRODUCCIÓN 1

2 DIAGRAMADEGANTT 2

3 ANÁLISISBIBLIOGRÁFICO 3

3.1 BasesdelIMR 33.1.1 AnálisisdefMRI 4

3.2 AnálisisdeComponentesIndependiente 53.2.1 ICAparalosdatosfMRI 53.2.2 TiposdeICA 6

3.3 GroupICAyRegresióndual 73.3.1 PropiedadesdelaRegresiónDual 9

3.4 Redesenestadodereposo 9

4 METODOLOGÍA 11

4.1 Sistemadeclasificación 11

4.2 Extraccióndelascaracterísticas 124.2.1 AnálisisdeComponentesPrincipales 13

4.3 Clasificadores 144.3.1 Kvecinosmáscercanos 144.3.2 Máquinasdevectoresdesoporte 15

4.4 Test 164.4.1 Estrategiadevalidación 16

4.5 Seleccióndecaracterísticas 17

4.6 Librerías 174.6.1 FSL 174.6.2 Python 204.6.3 MATLAB 23

5 DATOS 24

5.1 Adquisicióndelosdatos 24

5.2 Organizacióndelosdatos 24

6 EXPERIMENTOSYRESULTADOS 26

6.1 Fasedeprueba 26

6.2 CorrelaciónentrelasRSNdelGroupICAylasRSNestándar 27

vi

6.3 Seleccióndelclasificador 27

6.4 Pruebadeclasificación 286.4.1 Pruebacon100sujetos 29

7 CONCLUSIONES 33

7.1 Objetivosrealizados 33

7.2 Mejorasposibles 33

8 REFERENCIAS 34

vii

Listadefiguras

FIGURA1:DIAGRAMADEGANTTCONTODASLASTAREAS 2FIGURA2:ENREPOSO 3FIGURA3:ACTIVADO 3FIGURA4:LOSDIFERENTESPLANOSCREADOSPORLOSEJESCEREBLALES.FIGURAEXTRAÍDADE 4FIGURA5:COMPARACIÓNDE2ENFOQUESGROUPICA:1)ICAINDIVIDUALCONELCUALSEPUEDEN

HACERCORRELACIONESOCLUSTERINGENTRELOSINDIVIDUOS.2)TEMPORALICACONELCUALSEEXTRAENPATRONESDETIEMPOYESPACIALESCONJUNTOS.[2] 6

FIGURA6:ILUSTRACIÓNDELAECUACIÓNDEDESCOMPOSICIÓNDELOSDATOS.ENELLASEPUEDEOBSERVARCÓMOESTÁCOMPUESTALAMATRIZQUEESELCONJUNTODERS-FMRI.LAMATRIZCOMPUESTAPORCOMPONENTESYTIEMPOS,ESDEDONDESESACALOSPATRONESTEMPORALES,YLOSMAPASESPACIALESSONLOSPATRONTESESPACIALESEXTRAIDOS.[8] 7

FIGURA7:ELPROCESODEREGRESIÓNDUALESAPLICADOPARAOBTENERLAINFORMACIÓNESPECÍFICADELOSSUJETOS(SUBJECT-SPECIFICINFORMATION).PRIMERO,OBTENEMOSLASSEÑALESTEMPORALESESPECÍFICASDECADASUJETO(SUBJECT–SPECIFICTIMECOURSES)YDESPUÉSLOSMAPASESPACIALESESPECÍFICOSDECADASUJETO(SUBJECT-SPECIFICSPATIALMAPS).IMÁGENESEXTRAÍDASDE[4] 8

FIGURA8:REPRESENTACIÓNDELAS20REDESENESTADODEREPOSOOTAMBIÉNLLAMADASLASRSNESTÁNDAR[4] 10

FIGURA9:DIAGRAMADEFLUJODEUNSISTEMADECLASIFICACIÓN,SEPARADOPORPASOS.TAMBIÉNPODEMOSDIFERENCIARELCONJUNTODETRAINYDETEST,DIFERENCIADOPORELCOLORYELNÚMERODEPASOSAREALIZAR. 11

FIGURA10:REPRESENTACIÓNDELASFRONTERASDELOSDATOSILUSTRADOSENBASELAK-NN[10].14FIGURA11:REPRESENTACIÓNGRÁFICADELAFRONTERACREADAPORUNALGORITMOSVM,DONDE

PODEMOSOBSERVARELHIPERPLANOCREADOYLOSEJEMPLOSQUESIRVENPARACREARLOSVECTORESDESOPORTE[10]. 15

FIGURA12:DIAGRAMADELFUNCIONAMIENTODELK-FOLDCROSS-VALIDATION.ENESTECASOLOSDATOSSONDIVIDIDOSEN5-FOLDS. 16

FIGURA13:REPRESENTACIÓNDELASFRONTERASCONLOSMISMOSCONJUNTODEDATOSCONLOSCLASIFICADORES:LINEAL,RBF,POLINOMIAL.[10] 21

FIGURA14:VISTADELACOMPONENTENÚMERO27. 32

viii

Listadetablas

TABLA1:DIVISIÓNPORSEXOENTRELOS819SUJETOSQUEHANREALIZADO4RS-FMRI 24TABLA2:APARTIRDELOS819SUJETOSDIVIDIDOSPORSEXOSUBDIVIDIMOSPORGRUPOSDEEDAD 24TABLA3:CONTIENEELNÚMERODECOMPONENTES(DIMENSIÓNDELSUBESPACIO),ELTAMAÑOFINAL

DELAMATRIZUNAVEZREALIZADOELGROUP-ICA,ELTIEMPOQUETARDAENRALIZARICAYDR,LASUMADELOSTIEMPOSANTERIORESYELTAMAÑODELDATASETUTILIZADOPARAHACERGROUPICA. 26

TABLA4:CORRELACIÓNENTRELAS20RSNSESTÁNDARYLAS164RNSDELGROUPICA 27TABLA5:PRECISIÓNOBTENIDADECADACLASIFICADORUTILIZADOCONLAS20RSNMÁS

CORRELACIONADASCONBISWAL. 28TABLA6:RANKINGDELAS164COMPONENTESQUEHANOBTENIDOUNAPRECISIÓNMAYORA0.5.

¡ERROR!MARCADORNODEFINIDO.TABLA7:RANKINGDELAS20RSNSMÁSCORRELACIONADASCONLASRSNESTÁNDAR 30TABLA8:SENSIBILIDADYESPECIFICIDADDELCLASIFICADORENLACOMPONENTE27. 31

1

1 Introducción

Enelcampodelaneurociencia1,unapoderosaherramientaqueestásiendoexplotadaeslautilizacióndeImágenesdeResonanciasMagnéticasFuncionales(fMRI,delinglésfunctionalMagneticResonanceImaging)[1][2].

Conestametodologíaseextraeinformaciónfuncionaldelcerebro,esdecir,quéestánhaciendonuestrasneuronasencadamomento.Enlasimágenesobtenidassepuedevercomonuestrocerebroestáfuncionando,enotraspalabras,sepuedevercómotrabajanlosconjuntosdeneuronasycómosecomunicanentreellas.Asísepuedenextraerlasredesneuronales.Estasredesenestadodereposo,cuandounsujetonoestárealizandoningunatareaespecífica,recibenelnombrederedesneuronalesenestadodereposo(RSN,delinglésRestingStateNetworks).

LasimágenesfMRIestánformadasporunagrancantidaddeinformación.Elanálisis,por lo tanto, se convierte en una tareamuy compleja. En este trabajo utilizamos elAnálisis de Componentes Independientes (ICA, del inglés Independent ComponentAnalysis) [ 3 ], con el cual podemos extraer las RSN [ 5 ] y entender las estructurasespacio-temporalesdelaseñal.

Para comparar un grupo de sujetos utilizamos la regresión dual [ 4 ], con la cualextraemoslainformaciónindividualdecadasujeto.Estarepresentacióndecadasujetopuedeserinformacióndiscriminativaconlaquepodemoscompararlosentresí.

Elpresenteproyectopretenderealizarunestudioparaencontrardiferenciasentrelossexos.Nonosbasaremosenlascaracterísticasanatómicas,sinoquenosbasaremosenlasimágenesfMRIenestadodereposo.Además,seanalizasilareduccióndelosdatosobtenidosdificultaofavorecelabúsquedadediferencias.

Enelapartado2sepuedeverlaorganización,siguiendoundiagramadeGantt,deesteproyecto.Acontinuación,enelapartado3esdondeveremosladescripcióndealgunostemasrelacionados.Después,enelapartado0,describiremoslametodologíausada.Enelsiguientecapítulo,pasaremosalafasedepruebas(apartadonúmero6)y,finalmente,enelapartado7,presentaremoslasconclusiones.

1Cienciaqueestudiaaestructura,eldesarrolloylafuncionalidaddelsistemanervioso.

2

2 DiagramadeGantt

Enesteapartadoexpondremosdetalladamentecómosehaorganizadoesteproyecto.Enprimerlugar,semuestraellistadodelastareasquesehanrealizado,especificandocuántotiemposehaempleadoparacadaunadeellas.

EnlaFigura1,sepresentaelDiagramadeGantt,dondeseenumerantodaslastareasrealizadas, resaltando los distintos apartados que las contienen: Documentaciónteórica;FSL;LibreríaseImplementación;PruebayresultadosyDocumentación;ademásdelassemanasquehansidonecesarias.

Deestediagramasepuedeextraerquéapartadossonlosmáscostososdetiempo:

Figura1:DiagramadeGanttcontodaslastareas

0 5 10 15 20 25

Documentaciónteórica

Estudiodelproyecto

FSL

Instalación

LanzamientoGroupICAcon4sujetos

LanzamientoGroupICAcon10sujetos

LanzamientoGroupICAcon20sujetos

LanzaminetoDRcon20sujetos

LanzaminetoDRcon100sujetos

Lanzamientocorrelación

LibreriaseImplementación

Nibabel

Sklearn

Cargadataset

KNN

SVM

ScriptReshape

Pruebayresultados

Documentacion

Indice

Introducción

Desarrollodetallado

Planificación

Conclusiones

3

3 Análisisbibliográfico

3.1 BasesdelIMR

Laresonanciamagnéticaesunatécnicano invasivamediante lacualpodemosver laestructuradelcerebro,asícomomedirsuactividad.Conesteinstrumentoobtenemosimágenesformadasde100a200.000piezasdeinformacióncerebral—encasoqueseauna sucesión de imágenes se tomarán cada segundo, aproximadamente. Esteinstrumentopuederealizardostiposdetécnicas:

1. Estructural: la imagende laanatomíacerebral.Estetipode imagenesdegrandefinición.

2. Funcional:eslacapturadelaactividadcerebralenpartesdelcerebro.

Los resultados obtenidos a través de una de estas dos técnicas se utilizan con elpropósito de estudiar el órganomás importante del sistema nervioso encargado decoordinartodasnuestrasfuncionesvitales:elcerebro.

LasimágenessonobtenidasmedianteelcontrasteBOLD,elniveldeoxígenoensangre(BloodOxygenLevelDependent),ilustradoenlasFigurasFigura2:Enreposo2y3.Esteesun método que mide la proporción de la transición de hemoglobina oxigenada adesoxigenadaenlasangre.Enotrostérminos,capturalademandametabólicaparalaactivaciónneuronal.

Figura2:Enreposo

Figura3:Activado

Figura1y2:Tras laactivación,eloxígenoesdemandadoyextraídopor lascélulas, luego,aumentaelniveldedesoxihemoglobinaenlasangre.Estosecompensaporelaumentodelflujosanguíneo,acciónqueprovocaunaumentodeoxihemoglobina.Figurasextraídasde[9]

4

Figura4:Losdiferentesplanoscreadosporlosejescereblales.FiguraextraídadelblogF.Traver

Comosehacomentadoanteriormente,unaimagenestáformadaporunconjuntodepiezasllamadasvóxel.Unvóxelesunamedidavolumétricaqueabasteceunespacio3Den el cerebro. Cada uno de ellos localiza y representa, a través de una asociaciónnumérica,laintensidaddelademandadeoxígenoenunazonadeterminada.

ComopodemosobservarenlaFigura4,estánrepresentadoslostresejescerebrales:elejecoronal,correspondienteauncorteverticalortogonalalacara;elejesagitalque,aligualqueelanterior,esuncorteverticalparaleloalacara;yelejeaxial,representadoporuncortehorizontalparaleloalosojos.

3.1.1 AnálisisdefMRI

Hay dos enfoques en la adquisición de resonancias magnéticas funcionales (fMRI -functionalMagneticResonaceImaging):

• Entarea(t-fMRI,delingléstask–fMRI)sonunaseriedefotografíashechasdeunsujetocuandoesteestárealizandounatarea,p.ej.:escribirenelordenador.

• Enreposo(rs-fMRI,delinglésrestingstate–fMRI)sonunasucesióndeimágenescapturadasdeunsujetocuandoestenoestárealizandoningunatareaespecífica,esdecir,enestadodereposo.

Enesteproyectosehacentradoenutilizarlasrs-fMRI.Haytresmétodosprincipalesdeanálisisdeestetipodedatos:

1. Localización: suusomás frecuentees la localizacióndeáreascerebralesenrespuestaaunaciertatarea.EnestareglaseutilizaelModeloGeneralLineal(GLM,del inglésGeneral LinealModel).Esteesunmétodoestadísticoparaevaluarlasrelacionesentrelastareasrealizadasylaactividadcerebral.Dichométodopuede serusadoparaestimar la respuesta cerebral conun suceso

5

simpleyasí comparardiferentes tiposde sucesos, conel findeevaluar lascorrelacionesentreactividadycomportamiento.

2. Conectividad:describecómointeractúanlasdiferentesregionesdelcerebro.Sedistinguentrestipos:

a. Anatómica:describecómoestánconectadasfísicamentelasdiferentesregionescerebrales.

b. Funcional: que compara las correlaciones extrayendo un patróntemporaldelaactivaciónneuronal.

3. Predicción:empleode laactividadgeneraldeun sujetoparapercepciones,comportamientos o salud. En este apartado se utilizan clasificadores depatronesmedianteestadísticaytécnicasdeaprendizajeautomático.

3.2 AnálisisdeComponentesIndependiente

El Análisis de Componentes Independientes (ICA, del inglés Independent ComponentAnalysis) es unaherramientaparadescubrir características deun conjuntodedatosespacio-temporales.Estemodeloasumequelasobservacionessonunamezclalinealdefuentesindependientes.

ConsiderandounvectoraleatorioM-dimensionalobservado,porejemplox=[x1,x2,…,xM]T,ICAlodescomponeen2partes:laparteespacialylatemporal,comosepuedeverenlaecuación(1)[3]:

𝑥 = 𝐴𝑠

(1)

Grossomodo,ICAdescomponeunaseñalmuycomplejaenpartessimples.

Para resolver existen varios algoritmos, como Infomax, FastICA y diagonaizaciónaproximada[3].

3.2.1 ICAparalosdatosfMRI

EneláreadeneuroimagenseaplicaICAusandodiferentesconfiguracionesdelosdatos:

• ICAespacial(sICA,delinglésspatialICA)cuandoelnúmerodevóxelesesmayoralnúmerodepuntoseneltiempo.

• ICAtemporal(tICA,delingléstemporalICA),encasocontrario,cuandoelnúmerodepuntoseneltiemposonmayoresalnúmerodevóxeles.

6

ICApuedeserutilizadoparadescubrir,yaseaespacialotemporalmente,componentesindependientes.ElobjetivodelanálisisdecomponentesfMRIes,entonces,factorizarlamatrizdedatosenunproductodeunconjuntodeseñalestemporales,yunconjuntodepatronesespaciales.

Sinembargo,mayoritariamentelosestudiosdeneuroimagensebasanensICA,yaqueactualmentelasrs-fMRIcontienenmásnúmerodevóxelesquenúmerodepuntoseneltiempo. sICAencuentra regionesdel cerebroqueno se superponen, temporalmentecoherentes.

3.2.2 TiposdeICA

PararealizarunanálisissobreungrupodesujetosICAtiene2tipossegúnelenfoquedado:

§ Elprimertipo,Figura5(1)consisteenlaaplicacióndeICAporindividuos.Laventaja de este enfoque es la extracción de las características espaciales ytemporalesúnicos,conladesventajaqueloscomponentesdedatosruidososnosondescompuestosdelamismaformasiserehaceesteenfoqueparaelmismosujeto.

§ Laventajadelsegundotipo,Figura5(2)—concatenacióntemporal—esquepermite señales temporales únicas por cada sujeto pero unmapa espacialúnico.

Figura5:comparaciónde2enfoquesGroupICA:1)ICAindividualconelcualsepuedenhacercorrelaciones o clustering entre los individuos. 2) Temporal ICA con el cual se extraenpatronesdetiempoyespacialesconjuntos.[2 ]

7

3.3 GroupICAyRegresióndual

ICAsehautilizadoampliamenteconelfindeidentificarlospatronesdeconectividadfuncional en estado de reposo. Estas técnicas han demostrado ser útiles en lacaracterizacióndeestasfluctuacionesfuncionalesaniveldesujetoindividual.EnesteapartadosecomentaráunmétododeanálisisquecombinaICAsobremúltiplessujetoscon la regresión dual para estimar las diferencias individuales en la conectividadfuncional.

Elprocedimientoestándarsiguetresetapas:

1. Concat-ICA:

MúltiplesconjuntosdedatosfMRIsonconcatenadostemporalmenteyseformaunamatriz𝐸𝑠𝑝𝑎𝑐𝑖𝑜2𝐷 ∗ 𝑇𝑖𝑒𝑚𝑝𝑜 ∗ 𝑛𝑆𝑢𝑗𝑒𝑡𝑜. ICAseaplicaconel finde identificar lospatronesagranescaladelaconectividadfuncional.

EnlaFigura6ilustralaecuacióndedescomposicióndelosdatos.Enella,sepuedeobservarcómoestácompuestalamatriz,queeselconjuntoders-fMRI.Lamatrizcompuesta por componentes y tiempos es de donde se sacan los patronestemporales,ylosmapasespacialessonlospatronesespacialesextraídos.

Figura6:Ilustracióndelaecuacióndedescomposicióndelosdatos.Enellasepuedeobservarcómo está compuesta la matriz que es el conjunto de rs-fMRI. La matriz compuesta porcomponentesytiempos,esdedondesesacalospatronestemporales,ylosmapasespacialessonlospatrontesespacialesextraidos.[8]

8

2. Regresióndual:

En esta etapa, es donde se identifican los mapas espaciales y los patronestemporalesencadaunode losN sujetos individuales.Para cadaconjuntodedatos,esdecir,paracadars-fMRIosujetoserealizanlossiguientespasos:

a) En el primer problema de regresión, se utilizan los mapas espacialesextraídosaniveldegrupocomoelconjuntoderegresoresespacialesenunGLM.Suobjetivoesencontrarunadinámicatemporalasociadaconcadamapaaniveldegrupo.

b) Lanormalizacióndeestasseñalestemporalesalaunidaddevarianza

c) El segundo problema de regresión es la utilización de estas señalestemporales,resultadodelprimerproblemaderegresión,comoelconjuntoderegresorestemporalesenunGLM,paraencontrarmapasespecíficosdelossujetos(specific-subjectmaps).

1rproblemaderegresión

2nproblemaderegresión

Figura7:Elprocesoderegresióndualesaplicadoparaobtenerlainformaciónespecíficadelos sujetos (subject-specific information). Primero, obtenemos las señales temporalesespecíficas de cada sujeto (subject –specific time courses) y después losmapas espacialesespecíficosdecadasujeto(subject-specificspatialmaps).Imágenesextraídasde[4]

9

EnlaFigura7seobservaelprocesoderegresióndualqueesaplicadoparaobtenerlainformaciónespecíficadelossujetos(subject-specificinformation).Primero,obtenemoslas señales temporales específicas de cada sujeto (subject-specific time courses) ydespuéslosmapasespacialesespecíficosdecadasujeto(subject-specifcspatialmaps).

3. Inferencias:

Enlaúltimaetapa, losdiferentesconjuntosdemapasespacialesserecogenatravésdematices4Dysonanalizadosmediantemétodosnoparamétricos(p.ej.:permutaciones). Los mapas espaciales resultantes entre sujeto y diferenciasgrupales.

3.3.1 PropiedadesdelaRegresiónDual

La regresión dual está relacionada con los enfoques alternativos para el análisis delgrupo:

§ Nosebasaenunaúnicaubicaciónsinoqueintegralainformacióntemporaldelos datos fMRI distribuidos a través de las RSN 2 . Los resultados de ladescomposición inicial definen las regiones o las redes de interés que sonrelevantesaniveldegrupoparalapoblaciónenparticular.

Enlugardeutilizar laregresiónindividual,emplealaregresiónlinealmúltiple;por lo tanto, puede estimar diferencias significativas. Además, este métodotambiénpuedeabordarlainteraccióndinámicaentrelasredes.

§ Elenfoquepresentadoestimaladinámicaespacialytemporalaniveldesujetoconlosdatosoriginales.Estenuevoenfoqueestimaquelosmapasespacialesseencuentran necesariamente dentro del espacio definido por los principalesespaciospropiosdelossujetosespecíficosiniciales.Porlotanto,lacomparaciónfinalentresujetossehacedependientedelasetapasinicialesdereduccióndesujetosespecíficos.

3.4 Redesenestadodereposo

Las redes en estado de reposo (RSN, del inglés Resting State Netwok) no fuerondescubiertashastael1995.Primer,enlosestudiosdondeseutilizabanrs-fMRIssurgíanfluctuacionesdefrecuenciabaja,esdecir,perturbacionesdelaseñalmenoresa0,1Hz.Durante años, estas variaciones fueron ignoradas como ruido de la señal ya que noestabanrelacionadasconningunatareaenparticular.

2Esteconceptoseexplicaráenelapartado3.4.

10

No fue años hasta más tarde cuando se confirmó la existencia de patrones en elfuncionamientodel cerebroqueestaban correlacionados temporalmenteenalgunasáreasdelcerebro.Estasseñalesdebajafluctuaciónsepudierondescomponeren:

• Señalescardiovasculares(0,6–1,2HZ)

• Señalesrespiratorias(0,1–0,5Hz)

• Rangodebajaseñalespecífica(0.01-0.08Hz)

Después de una gran recopilación de datos pudieron extraer zonas separadas,físicamente,perofuncionalmenteconectadas,queseguíanunpatrónduranteelestadode reposo.Estas20RSNs fueronaceptadaspor la comunidadmédica, las cuales sonllamadasRSNestándar(Figura8)[4][5].

Figura8:Representacióndelas20RedesenEstadodeReposootambiénllamadaslasRSNestándar[4]

11

4 Metodología

Enesteproyectosedesarrollaunsistemadeclasificaciónaplicadoadatosders-fMRIparapredecirelsexodeunconjuntosujetos.Además,sequieredescubrircuálessonlascaracterísticasmásdiscriminativasparaesteobjetivodeclasificación.

Estametodologíadifieredelasección3.3enlaetapadelasinferencias,yaqueesdondelossujetossoncomparadosparaextraerresultados.

4.1 Sistemadeclasificación

Lametodología seguida en el sistema de clasificación que proponemos contiene lospasos que se pueden ver en la Figura 9 el diagrama de flujo de un sistema declasificación,separadoporpasos.Tambiénsepuedediferenciarelconjuntodetrainyeldetest.

Figura9:Diagramadeflujodeunsistemadeclasificación,separadoporpasos.Tambiénpodemosdiferenciarelconjuntodetrainydetest,diferenciadoporelcoloryelnúmerodepasosarealizar.

12

Losdetallesdelospasosdelprocedimientosonlossiguientes:

1) Definicióndelasclases:

En nuestro caso consideramos dos clases: hombre y mujer del conjunto desujetosdelHumanConnectomeProyect(HCP).Lossujetosseleccionados,paraelaprendizajeyeltestdelclasificador,hansidoescogidosenlafranjade26a30años.(Vermásdetallessobrelosdatosenlasección5).

2) Pre-procesamientodelosdatos:

LosdatosproporcionadosporelproyectoHumanConnectomeyavienenpre-procesados, es decir, las rs-fMRI han sido procesadas para corregir elmovimientoyángulodeposicióndelacabezadecadasujeto.

3) Extraccióndelascaracterísticas:

Enesteapartadopodemosdiferenciar2partes.PrimerorealizamosunGroupICA, con el que extraeremos las características comunes a los sujetos, y acontinuación,realizamosunRegresiónDual,métodoquenospermiteextraerlascaracterísticas individuales de cada sujeto. Los detalles de este paso sepresentaránenelapartado4.2.

4.2 Extraccióndelascaracterísticas

Paralaextraccióndelascaracterísticas,procederemosarealizarunGroupICA,omásconcretamente,unespacialGroup ICAconconcatenación temporal.Obtenemosunamatrizdetamaño𝑇𝑖𝑒𝑚𝑝𝑜𝐶𝑜𝑛𝑐𝑎𝑡𝑒𝑛𝑎𝑑𝑜 ∗ 𝑛𝑆𝑢𝑗𝑒𝑡𝑜×𝐸𝑠𝑝𝑎𝑐𝑖𝑜2𝐷,comoseilustraenlaFigura6.

PrimeroserealizaunPCAconelcualreduciremoselnúmerodevóxeles.Acontinuación,seprocederáaaplicarelICA,quefactorizarálamatrizenelproductodedosmatrices.Comoseformalizaenlaecuación(2)semuestraladescomposiciónde𝑀C,queeslamatrizpertenecientedelsujetoi,endosmatricesA,matrizdemezcla,yS,matrizdefuentes,queenestecasocontienelosmapasespaciales.Estosmapasespacialessonlascaracterísticasdelosnsujetosquepierdendetallesdeformaindividual.

Acontinuación,realizaremoslaregresióndualparadefinirlascomponentesindividualesapartirdelascomponentesdelgrupo.LamatrizX,queeslars-fMRIdeunsujeto,setransformasiguiendoelsiguienteesquema:

𝑀EF×G = 𝐴E×H · 𝑆H×G

(2)

13

1º problemaderegresión:

𝑋G×EFK = 𝑆GLHK ×𝐺H×EF

(3)

2º problemaderegresión:

Este proceso consiste en resolver dos problemas consecutivos de regresión lineal,formalizado en las ecuaciones (3 ) y (4), y es aplicado para obtener la informaciónespecíficadelossujetos(subejct-specificinformation)deformaindividual.Resolviendoelprimerproblemaderegresiónobtenemoslossubject–specifictimecourses,esdecir,conseguimoslospatronestemporales,ydespués lossubject-specificspatialmaps,enotraspalabras,lospatronesespaciales.

Finalmente,elvectordecaracterísticasdelsujetoi-ésimoeslaconcatenacióndelainformacióndelasrRSNs,sepuedeverenlaecuación(5).

𝑆C = 𝑅𝑆𝑁P, 𝑅𝑆𝑁Q, … , 𝑅𝑆𝑁R

(5)

Este vector de características resultante contiene muchas dimensiones𝑟𝑥𝑣 . Estenúmerodevóxelesesvariable,esdecir,estenúmerocambiadependiendodelnúmerodesujetosquesehayautilizadoenelGroup-ICA;ennuestrocasoesde227.441.

Comosoluciónalproblemadealtadimensiónseguiremoselprocedimiento:

1. UnamáscaraqueestarácompuestaporlasrRSNsextraídasdelGroupICA,queasuvezseescogeránlosvaloresdiferentesa0,paraelegirlosvóxelesdondesehayaencontradounpatrónespacio-temporal.

2. LasrRSNsdecadasujeto,olosmapasespacialesespecíficosdelossujetos,sefiltraránporunamáscarayseeliminaránlosvaloresigualesa0.

Además, probaremos de reducir esta alta dimensión añadiendo el análisis decomponentesprincipalesexplicadoenelsiguienteapartado.

4.2.1 AnálisisdeComponentesPrincipales

ElAnálisisdeComponentesPrincipales(PCA,eninglésPrincipalComponentAnalysis)esunatécnicadeaprendizajeautomáticonosupervisado.

𝑋EF×G = 𝐺EF×H×𝑆𝑆H×G

(4)

14

Estatécnicadereduccióndeladimensiónreduceelnúmerodevariables.Lasnuevascomponentesprincipaleso factoresseránunacombinación linealde lasvariablesdeorigen.

4.3 Clasificadores

Durante la realización de este proyecto se han empleado los clasificadores queexplicaremos a continuación. Estos clasificadores son métodos de aprendizajesupervisado,esdecir,quesepuedendividiren2partes:

1. La fase de aprendizaje que es donde se diseñará el clasificador utilizando elalgoritmoylosdatosdeentrenamiento.

2. Lafasedetestoclasificaciónaplicaráelclasificadorparapredecirlaclasedelconjuntotest.

4.3.1 Kvecinosmáscercanos

Estemétodo(K-NN,delinglésK-NearestNeighbors)esunclasificadornoparametrizado,quecalculaladistanciadeunamuestraconelresto.Acontinuación,seescogeránlasKobservacionesmáscercanasal individuo,yseasignará laclaseconmáspresenciaenestasKobservaciones.

EstemétodoesuntipodeLazyLearningeninglés,puesrompeconelesquemaexplicadoanteriormente (sección 4.3), ya que en la fase de aprendizaje solo recolectará lainformación,yesenlafasedeclasificacióndondecreaunmodeloporcadaejemplar

Figura10:RepresentacióndelasfronterasdelosdatosilustradosenbaselaK-NN[10].

15

introducido.Ladistanciaquemásseutilizaparalaclasificaciónesladistanciaeuclídeaquesedefinedelasiguientemanera:

Dadolosejemplares𝑥P = (𝑎P, 𝑏P)y𝑥Q = (𝑎Q, 𝑏Q)laecuación(6)muestraladistanciaentreestos:

𝑑X LY,LZ = (𝑎P −𝑎Q)Q +(𝑏P −𝑏Q)

Q

(6)

EnlaFigura10podemosobservarcómoestealgoritmocrealasfronterasdecadaclase.

4.3.2 Máquinasdevectoresdesoporte

EstemétodoSVM(delinglésSupportVectorMachines)mapealosdatosdeentradaaunespaciomayordecaracterísticasparaencontrarelhiperplanoquesepareymaximiceelmargenentrelasclases.Pertenecealacategoríadelosclasificadoreslinealesyaquemueve estos hiperplanos a espacios de características de mucha dimensionalidad(realizadoporelnúcleookernel)ytrazaunafronteralineal.

Alcontrariodelamayoríademétodosdeaprendizajequesecentranenminimizarelerrordelentrenamiento,losSVMbuscaunhiperplanodeseparaciónequidistantealosejemplosdeclasesdiferentesymáscercanosentreellos.Comoresultado,obtieneun

Figura11:RepresentacióngráficadelafronteracreadaporunalgoritmoSVM,dondepodemos observar el hiperplano creado y los ejemplos que sirven para crear losvectoresdesoporte[10].

16

margenmáximo.Aestosejemplosmáscercanosydediferenteclaseselesconsideraparadefinirlafronterayrecibenelnombredevectoresdesoporte.Estemétodotienegrancapacidaddegeneralización,asíevitaelsobreajustamiento3.

En la Figura 11, se puede ver la frontera creada por este algoritmo para los datosintroducidosdedistintocolor.Además,elhiperplanoóptimorepresentadoporlalíneacontinua y por las líneas discontinuas son los vectores de soporte asociados a unejemploquemaximizaladistanciaentreellos.

4.4 Test

4.4.1 Estrategiadevalidación

Lavalidacióncruzada(Cross-validationeninglés)esunatécnicaqueseparaelconjuntodemuestrasque tenemosendos subconjuntos, el de aprendizaje (train set) y el deprueba(testset).Estatécnicaevalúalosresultadosdeunanálisisestadísticooanálisisdeaprendizajeautomático.

En este proyecto, utilizaremos el K-fold cross-validation para analizar los resultadosobtenidos.EstemétododividelosdatosenKsubconjuntos.Unodelossubconjuntosseutilizaráparaeltestsetytodoslosdemásparaelaprendizaje.Elprocesoconsisteenircambiandoel test set y el train set K veces. En la Figura 12podemos ver, de formaesquemática,elfuncionamientodeestevalidador.

3Consecuenciacuandounmodeloseajustamuchoalosdatosdeentrenamiento.

Figura12:DiagramadelfuncionamientodelK-Foldcross-validation.Enestecasolosdatossondivididosen5-folds.

ImagenextraídadelblogdeBryceChristensen

17

4.5 Seleccióndecaracterísticas

Porúltimo,enesteproyecto,queremossabercuáldelasRSNeslamásdiscriminativaparadiferenciarhombreymujer.Porello,entrenaremostantosclasificadorescomoRSNtengamos utilizando los vectores de características correspondientes. La RSN másdiscriminativaserálaqueconsigamejorprecisiónenestatareaclasificación.

4.6 Librerías

Enesteapartadoexplicaremoselsoftwareyloslenguajesdeprogramaciónutilizados.Además,seharáunapequeñaexplicacióndelcódigoparaeldesarrollodeesteproyecto.

4.6.1 FSL

FSL,delinglésFMRIBSoftwareLibrary,esunabibliotecadeherramientaparaelanálisisdefMRIrealizadaenelcentroFMRIBdeOxford.Estabibliotecasepuedeejecutarentodaslasplataformas,sinembargo,laúnicaquenoutilizaunamáquinavirtualparasuejecuciónesMacOS.

Nos ofrece una infinitud de funcionalidades de neuroimagen, de las cuales solodescribirélosutilizadosduranteelproyecto.

1. ParapoderrealizarelGroupICAhemosutilizadolainstrucciónmelodic.Parapoderutilizarestaintrucciónesnecesariodisponerde10vecesmásespaciodeloqueocupantodoslosarchivosparaanalizar:

a. Instrucciónutilizada:

>>melodic -i path_to_data.txt --nobet --tr=2.0 --Ostats -o ICA_result --report –v

b. Morfología:

>>melodic -i <filename> <options>

c. Análisismorfosintáctico: • Parámetros:

-i, -in: sutraducciónesinput,despuésdeesteparámetro,queesobligatorio, se le introduce losnombresdearchivopara realizar ICA.Estosnombrespuedenser:unsoloarchivo,listadoseparadoporcomas,ounarchivoquecontengatodaslasrutas.

18

--nobet: esteargumentodesactivalarealizacióndelafunciónBET4antesdehacerICA.

--tr=2.0: esparaindicaralavariableTR,cadacuantossegundosserealizauncorteenlafMRI.

--Ostats: esteargumentohacelacreacióndemapasthresholdedymapasdeprobabilidad

-o, --outdir: paraindicarlelacarpetadondeseguardaráeloutput

--report: esteargumentoopcionalgeneraunawebdondesaldráelinformedeMelodic

-v, --verbose: paraencenderlosmensajesdediagnóstico.

• Inputs:

Path_to_data.txt: estearchivo lo creamosnosotros, aquídentrohabrátodaslasrutasdelosarchivosquesequierenutilizarparaaplicarICA

ICA_result: esteeselejemplodelnombrede lacarpetadondeseguardarálasalidageneradaporelprocesoICA.Tambiénañadiremosqueestacarpetasecreaeneldirectoriodondesellamalainstrucción.

2. ParapoderrealizarelDRhemosutilizadolainstruccióndual_regression:a. Instrucciónutilizada:

>> dual_regression melodic_IC.nii 1 design.mat design.con 1 DR_result_50 `cat path_to_data.txt`

b. Morfología:

>> dual_regression <group_IC_maps> <des_norm> <design.mat> <design.con> <n_perm> <output_directory> <input1> <input2> <input3> ....

c. Análisismorfosintáctico:• Parámetros:

4 BETeninglésBrainExtractionTool,esunaherramientaparalaextraccióndelcerebroeliminandotejidoquenopertenecealcerebrodeunaimagen.

19

- group_IC_maps_4D: Imagen 4D contenedora de losmapas ICespaciales,porejemplo,el ficheromelodic_IC.nii,quees lasalidadelanálisisgroupICA.

- des_norm: losvaloresquepuedecogeresteparamentroes0o1,pero se recomienda 1. Este parámetro sirve para normalizar lostimecoursesusadosenlasegundaetapadelaregresión.

- design.mat: matriz diseñada para poder realizar la regresión atodoslossujetos.

- n_perm: númerodepermutaciones,puestoque1tienecomosalidatstats.

- output_directory: eseldirectoriodondeseguardarántodoslosarchivosdesalidaylogfiles.

- <input1> <input2> ...: Listadetodoslossujetospreprocesados.

• Inputs:

cat path_to_data.txt: estainstrucciónlautilizamoscomoinputparanoponerlaentradasujetoasujetoyseaautomático.Devuelveunstring con todos los elementos guardados en el ficheropath_to_data.txt

3. ParapodercorrelacionarlasRSNestándarconlasRSNextraídasporelGroupICAa. Instrucciónutilizada:

>> fslcc -t 0.2 melodic_IC.nii Resampled_Biswal.nii

b. Morfología:

>> fslcc -t <threshold (default=0.1)> <first-NIFTI> <second-NIFTI>

c. Análisismorfosintáctico:• Parámetros:

threshold: mínimovalornecesarioparamostrarseenlasalida

<first-NIFTI>/<second-NIFTI>: archivos que contienen las RSNs que se quieren comparar

20

4.6.2 Python

Python es un lenguaje interpretado con el objetivo de hacer una sintaxis legible. Acontinuación,seexplicaránlaslibreríasdePythonquesehanutilizadoenelproyecto

4.6.2.1 Nibabel

Nibabel es una librería que nos permite la lectura y escritura de los formatos máscomunesdelosarchivosutilizadosenlaneuroimagen.

Suinstalaciónesmuysimple,solohayquetenerencuentalosrequisitos,queson:

- Python2.6oposterior

- NumPy1.5oposterior,eselpaquetefundamentalparalacomputacióncientíficaconPython

- SciPyesunecosistemabasadoenPythondesoftwaredecódigoabiertoparalasmatemáticas,lacienciaylaingeniería.

- PyDICOM

- PythonImagingLibrary(PIL)añadecapacidadesdeprocesamientodeimágenesparaelintérpretedePython.Estabibliotecaescompatibleconmuchosformatosdearchivo,yproporcionapotentescapacidadesdeprocesamientodeimágenesygráficos

- Nose0.11oposteriorparahacercorrerlostests

- Sphnixparaconstruirladocumentación

4.6.2.2 Scikit-learn

Scikit-learn, abreviado SKlearn, es una biblioteca libre de Python para facilitar laimplementación de algoritmos de clasificación, regresión, clustering, entre otros. ElleguajeparapoderutilizarestalibreríaesPython.NoscentramosenlosclasificadoresK-NNySVM,yparalavalidaciónelK-foldutilizadosenelproyecto.

K-NNenScikit-learn

Como se ha comentado en la sección 4.3.1, este algoritmobusca los K vecinosmáscercanos.EnlainstanciacióndeestealgoritmosehamodificadoK,queeslamedidadelamuestradelosvecinosmáscercanosquequeremosmirar.

KNeighborsClassifier(n_neighbors)

21

Donde:

- N_neighbors: que especifica el número de vecinos por defecto es igual a 5, yhemosutilizadoestaconfiguraciónparaclasificar.

ElproblemadeencontrarlaKóptimaesquesilaKesmuypequeñaseajustademasiadoalmodelo,por lo tanto,el ruidode lamuestrao lasmuestrasquepuedenser ruidoafectanalmodelo.Porelcontrario,siKesmuygrande,esdecir,siKcogeelvalordelnúmero de muestras, rompe con la filosofía de este algoritmo, y si el número demuestras,decadaclaseutilizada,sonigualesosimilaresnopodráclasificarbien,yaquelafuncióndedensidadquepermiteclasificardaráunresultadomuysimilarentre lasclasesempleadas.

Porestemotivo,noquisemodificarelvalordeK,yaquesedeberíahacerunK-foldcross-validación para escoger que K otorga más precisión. Esto supone un alto costecomputacional,yademásesaKsoloserviríaparaunvolumendemuestrasconcreto.

SVCenScikit-learn

Elclasificadordevectoresdesoporte(SVC,delinglésSupportVectorClassifier),comosehaexplicadoenelpunto4.3.2,eselkernelonúcleoeselencargadodegenerarelhiperplano.Acontinuación,lesmostramosmorfologíadelainstanciacióndelaclase:

SVC (kernel, degree, gamma)

En la parametrización solo se muestran las variables que hemos ido modificandodurantelarealizacióndeesteproyecto:

Figura13:Representacióndelasfronterasconlosmismosconjuntodedatosconlosclasificadores:Lineal,RBF,Polinomial.[10]

22

- Kernel:especificaeltipodenúcleoparaserutilizadoenelalgoritmo.Nosotroshemoshechoservir‘poly’,‘linear’,‘rbf’5

- Degree:indicarelgradodelafunciónpolinomionúcleo(‘poly’).Hemosutilizadolaquevienepordefecto,esdecir,de3ºgrado.Cuandoseutilizaotro tipodekernelquenoseapolinomialesteparámetroseráignorado.

- Gamma:soloesutilizadoparaelkernelRBF,cuandoseutilizaelautomáticoesP

]^_`abc`deaedf`aíhfideh.Estevalornosindicaqueinfluenciatieneunejemplodel

train,esdecir, convaloresbajos indica lejaníay convaloresaltosproximidad.Apartedelautomáticosehautilizadounagammaconunvalorde0,5.

En laFigura13 sepuedeveruna representaciónde los tres clasificadoresutilizados.Estasfronterassehancreadoconelmismoconjuntodedatos.

K-flodenScikit-learn

Estaclasenosfacilitalacreacióndeuniterador.Esteiteradordividelosíndicesdelasmuestrasendosgrupos,eldeentrenamientoyeldetest.ComosupropionombreindicahaceKparticionesenlosíndicesproporcionadosparapoderhacerlavalidacióndelK-fold,explicadaenelpunto4.4.1.Lainstanciacióndeesta:

KFolfd(n, n_fold, shuffle)

Donde:

• neselnúmerodeejemplaresutilizadas.

• n_fold el número de carpetas a dividir la muestra, en el proyecto n_fold

obtiene el valor dejklXRmnXlkXoERpoq

. De esta forma la precisión obtenida

aumentaenuncuartodepunto,esdecir,quecadaaciertoqueobtieneesun0,25.

• shuffleesunbooleanoparaindicarsiqueremosbarajarlosíndicesutilizados,enotraspalabras,noseaceptaráníndicesconsecutivosparacrearcadacarpeta.Ennuestrocasoestevalorloactivamos.

PCAenScikit-learn

Estaclasenospermitereducirelnúmerodevariables,explicadoenlasección4.2.1.Ensu instanciaciónel parámetron_components es el númerode componentesal que

5Funcióndebaseradial(RBF,delinglésRadialBasisFunctions)esunafunciónrealcuyovalordependesólodeladistanciadelorigen.

23

queremos reducir. Este parámetro te da la opción de que sea nulo y, comoconsecuencia, el númerodedimensiones es elmínimoentrenúmerode ejemplos ynúmerodecaracterísticas.

PCA(n_components)

4.6.3 MATLAB

MATLABesunlenguajedecomputacióntécnicadealtonivelyunentornointeractivopara desarrollo de algoritmos, visualización de datos, análisis de datos y cálculonumérico. Con MATLAB, se pueden resolver problemas de cálculo técnico másrápidamente que con lenguajes de programación tradicionales, tales como C, C++ yFORTRAN.

SepuedeusarMATLABenunaampliagamadeaplicacionesqueincluyenprocesamientode señales e imágenes, comunicaciones, diseño de sistemas de control, sistemas depruebaymedición,modeladoyanálisisfinancieroybiologíacomputacional.

4.6.3.1 SPM

Enesteproyecto,altrabajarconlasRSNestándarsehanecesitadodelalibreríaSPMimplementadaenMATLAB.Estalibreríaesunconjuntodeherramientasparaelanálisisdesecuenciadedatosdeimágenescerebrales.Normalmenteseempleaparaelmanejodelosmúltiplesformatosdeneuroimagen.

24

5 Datos

5.1 Adquisicióndelosdatos

La base de datos facilitada por el HCP (http://www.humanconnectome.org/) estáformada por 970 sujetos de los cuales 819 tienen 4 rs-fMRI. Prestaremos especialatención a estos 819 individuos, ya que han completado el seguimiento, y lossubdividiremosporsexocomopodemosverenlaTabla1.

NUMERODESUJETOSMUJERES 453

HOMBRES 366

Tabla1:Divisiónporsexoentrelos819sujetosquehanrealizado4rs-fMRI

Estosconjuntosdesujetosestánrepartidosen4gruposdeedad.EnlaTabla2sepuedeobservarlacantidaddesujetosquehayenlosdiferentesgruposdeedadysexo:

INTERVALOSDEEDAD MUJERES HOMBRES

22-25 70 105

26-30 198 152

31-35 182 106

36+ 3 3

Tabla2:Apartirdelos819sujetosdivididosporsexosubdividimosporgruposdeedad

5.2 Organizacióndelosdatos

Como hemos comentado anteriormente, los sujetos seleccionados tienen 4 rs-fMRI.Estas 4 rs-fMRI están realizados durante 2 sesiones, en relación con la BBDD: las 2primerasrs-fMRIestánrealizadasenlaprimerasesión,y las2siguientesenlasesiónrestante.Cadaunadeellaseslacapturadelaactividadcerebral,enestadodereposo,durante15minutosaproximadamente.Dentrodecadasesión,alternaronladireccióndelacodificacióndedatos,queson:derecha-izquierda(RL)eizquierda-derecha(LR).

25

La relación comentada anteriormente, la división de las rs-fMRI en sesiones, se veplasmadaenladistribucióndelosdatosalahoradedescargarselosdatos,esdecir,lasrs-fMRIestánagrupadasenlassesiones,yestas,divididasendosgrandesbloques:

1.Elprimerbloquequecontienelasdosprimerasrs-fMRI,ocupa5216,93GB.

2.Lasegundo,conlassiguientesrs-fMRIcorrespondientes,ocupa4975,56GB

Lasumadelosbloquesdeinformaciónproducequeelvolumendedatosfacilitadoporel proyecto sea inmenso, en total 10192,49 GB, en otras magnitudes, 10TBaproximadamente.

Enlosdosbloques,losarchivosdeunsujetoenlaBBDDestánformadospor:

1.LacarpetaMNINonLinear/Results/,dóndeseencuentra:Lasdosrs-fMRIdelbloquecorrespondienteylosdatosdelpreprocesamiento.

2.release-notes/,queeseldirectoriodondeseencuentralaversión,lasnotasylalicenciadelosdatos.

3.EldirectorioT1W/Results,eseldirectoriodondeseencuentranlosescáneresestructuralesdecadasujeto.

Todalainformacióndeunsujetooscilaentrelos5,5GBylos7GBaproximadamente.Sinembargo,nospercatamosquelosarchivosquenecesitamosocupanmásomenos1GB,esdecir,quelasrs-fMRIdeunsujetopesa1GBaproximadamente.

26

6 Experimentosyresultados

6.1 Fasedeprueba

Paraempezar,procedemosaunafasedepruebasdonderealizaremoslaprimeratomadecontactoconlametodología(Group ICA+Regresióndual)yconla libreríaFSL.Seobservacomooscilandiferentesvalores–tamañodelosdatos,tiempodeejecucióndelos diferentes procesos, etcétera— para diferentes cantidades de sujetos, con lafinalidaddepodertenerunaaproximacióndetiempoparalapruebafinal.

Comosepuedeobservarenla

Tabla3, tenemos losdatosrecogidosentrespruebas.Enestatablapodemosvereltiempodeduraciónde losdosprocesos (Group ICAyRegresiónDual) juntoal total.Tambiéneltamañodelamatriz,unavezsehayarealizadoelGroupICA,yelnúmerodedimensionesdelsubespacio,queeselnúmeroderedesquehaencontrado,esdecir,elnúmerodecomponentes.Porúltimo,estimaremoseltamañodelconjuntodesujetosutilizadopararealizarGroupICA.

Enlas2primeraspruebas,lade4sujetosylade10sujetos,contienenunnúmerosimilarde RSNs. Estas RSNs se han podido observar que están formadas por datos muyruidosos.EselGroupICAde20sujetos,enlasqueestasRSNruidosasnoaparecen,quecontienealgoderuido.

NºDESUJETOS 4 10 20TAMAÑOINICIALDELOSDATOS

1200x227441

DIMENSIÓNSUBESPACIO

154 157 164

TAMAÑOFINALDELOSDATOS

616x227441 1570x227441 3280x227441

TIEMPOGICA 03:50 05:13 25:24TIEMPODR 00:15 00:38 15:44TIEMPOTOTAL 04:05 05:52 41:08

TAMAÑODATASET 3,93GB 9,27GB 18,45

Tabla3:contieneelnúmerodecomponentes(Dimensióndelsubespacio),eltamañofinaldelamatrizunavezrealizadoelGroup-ICA,eltiempoquetardaenralizarICAyDR,lasumadelostiemposanterioresyeltamañodeldatasetutilizadoparahacerGroupICA.

27

6.2 CorrelaciónentrelasRSNdelGroupICAylasRSNestándar

Enelapartado3.4sehaexplicadolaexistenciadelas20RSNestándares,enestasecciónmiraremosqueRSNsde la salidadelGroup ICAsonmásparecidasconestas20RSNestándar.Paraobtenerestacorrelacióntuvimosqueseguiresteprocedimiento:

1. Se tuvoque remodelar los2conjuntosdeRSNparaqueposeyeranelmismotamaño,yaquelasdosestabanformadaspordimensionesdiferente.

2. Todoseguidoutilizamoslainstrucciónfslcc,laexplicacióndelusoestáenlasección4.6.1

SepuedeobservarenlaTabla4las20correlacionesquehayentrelosdostiposdeRSNs:

Estándar GroupICA

Estándar GroupICA

Estándar GroupICA

Estándar GroupICA

1 8 6 12 11 1 16 28

2 11 7 25 12 37 17 30

3 3 8 10 13 21 18 24

4 2 9 17 14 13 19 6

5 46 10 55 15 23 20 27

Tabla4:Correlaciónentrelas20RSNsestándarylas164RNSdelGroupICA

6.3 Seleccióndelclasificador

Comosehaexplicadoanteriormente,enlasección4.3,utilizaremostresclasificadores.Todaslasexperienciasrealizadashansidotesteadasconlasmismasvariables,esdecir,hemosutilizadoelmismonúmerodesujetos,losmismossujetosylamismaestrategiaK-foldcross-validation.

En la Tabla 5, resumimos los resultados obtenido de las pruebas. Los índices de laprimera columna de la tabla son las RSN que hemos extraído del ICA y con máscorrelaciónconlasRSNBiswal.Observandolosresultados,nosdamoscuentadelamalaactuación de los clasificadores SVM con un kernel polinomial y RBL, así, que estosclasificadoressondescartados.TambiénpodemosverqueeselSVMconunkernellinealeselquemejorclasifica,porlotanto,escogemosesteparapruebasposteriores.

28

Tabla5:Precisiónobtenidadecadaclasificadorutilizadoconlas20RSNmáscorrelacionadasconBiswal.

6.4 Pruebadeclasificación

Unavezhemosseleccionadoelclasificadorqueutilizaremos(SVMlineal),realizaremosuna prueba considerando todas las componentes extraídas con ICA (164). TambiéncomprobaremossilacomponenteextraídaporICAqueobtienemásprecisiónesunadelas20RSNmáscorrelacionadasconlasRSNdeBiswal.Además,miraremossireduciendolaaltadimensióndelosdatos,conunPCA,afectaalaprecisióndelaclasificación,esdecir,silaaltadimensióndelasRSNtieneinfluenciaenlaseparacióndesexos.

Acontinuación,dividiremosestapruebaensub-pruebas:

1) 164componentessinPCA

2) 164componentesaplicandoPCA

3) 20 componentes, que han sido las que tienen mayor correlación con lascomponentesdeBiswal,sinPCA

4) 20 componentes, las que tienenmayor correlación comparando las redes deBiswal,aplicandoPCA

K-NN POLY LINEAL RBL1/NºF RBL0.58 0,52 0,42 0,63 0,47 0,4311 0,52 0,43 0,49 0,47 0,433 0,51 0,51 0,72 0,47 0,432 0,51 0,34 0,51 0,47 0,4346 0,49 0,51 0,58 0,47 0,4312 0,55 0,41 0,54 0,47 0,4325 0,49 0,47 0,61 0,47 0,4310 0,54 0,41 0,52 0,47 0,437 0,55 0,34 0,63 0,47 0,4355 0,50 0,33 0,53 0,47 0,431 0,59 0,32 0,60 0,47 0,4337 0,49 0,43 0,55 0,47 0,4321 0,52 0,32 0,52 0,47 0,4313 0,50 0,51 0,55 0,47 0,4323 0,49 0,43 0,55 0,47 0,4328 0,45 0,41 0,54 0,47 0,4330 0,54 0,32 0,51 0,47 0,4324 0,48 0,51 0,51 0,47 0,436 0,49 0,49 0,54 0,47 0,4327 0,47 0,47 0,49 0,47 0,43

MEDIA 0,51 0,41 0,55 0,47 0,43

29

Laspruebasseidentificaránporelnúmerodesujetosutilizados.Esteidentificadoreselnombre de sujetos empleados y se divide en 2 partes, ya que, se utiliza la mismacantidaddehombresquedemujeres.

Lastablasquesemuestran,acontinuación,contienenlamediadelosresultadosenlos10 K-Fold ordenadas de forma descendiente, es decir, creamos un ranking de lasmejoresmediasdeprecisión.Lastablashansidodivididasaamboslados:lasceldasdela izquierda son las queocupanunas posicionesmás elevadas en el ranking que lasceldasdeladerecha.

6.4.1 Pruebacon100sujetos

Enestapruebalamuestraempleadasedivideen50hombresy50mujeres.20de100sujetoshansidoutilizadospara laextraccióndecaracterísticascomunesdelprocesoGroup ICA. Como se puede ver en las Tablas 6 y 7, son los rankings de lasmejoresprecisionesobtenidasenlaprueba.

EnlaTabla6seobservalamayorprecisiónqueseobtiene,enlascomponentes,eselnúmero27conun0,683.

Lacomponentenúmero27fuecorrelacionadaconunaRSNestándarnúmero20(dichacorrelación se puede observar en la Tabla 4), obteniendo el mismo resultado deprecisiónenlaclasificaciónconlasRSN(Tabla7).

NºCOMPONENTE

NOPCA PCA NºCOMPONENTE

NOPCA PCA

27 0,683 0,683 32 0,545 0,5454 0,675 0,675 35 0,542 0,54240 0,66 0,66 29 0,54 0,549 0,62 0,62 7 0,539 0,53913 0,603 0,603 137 0,538 0,5382 0,6 0,6 139 0,532 0,53226 0,596 0,596 19 0,531 0,53120 0,592 0,592 38 0,527 0,52746 0,592 0,592 1 0,527 0,52739 0,591 0,591 107 0,524 0,52442 0,591 0,591 25 0,523 0,52318 0,589 0,589 121 0,521 0,52123 0,589 0,589 90 0,521 0,52176 0,58 0,58 44 0,52 0,5233 0,568 0,568 10 0,508 0,5088 0,564 0,564 12 0,507 0,50715 0,562 0,562 31 0,506 0,50614 0,558 0,558 79 0,506 0,506

30

NºCOMPONENTE NOPCA PCA Nº

COMPONENTE NOPCA PCA

27 0,683 0,683 10 0,508 0,50813 0,603 0,603 12 0,507 0,5072 0,6 0,6 21 0,502 0,50246 0,592 0,592 24 0,499 0,49923 0,589 0,589 28 0,484 0,4848 0,564 0,564 30 0,482 0,48217 0,549 0,55 3 0,471 0,4716 0,547 0,547 37 0,447 0,4471 0,527 0,527 11 0,428 0,42825 0,523 0,523 55 0,352 0,352

Tabla7:Rankingdelas20RSNsmáscorrelacionadasconlasRSNestándar

EnlaFigura14sepuedeobservarlacomponente27.EstacomponentedelasRSNdelGruopICAtambiénesseleccionadacomolaquemássecorrelaciónaconlacomponentenúmero20delas20RSN(Tabla4)ysepuedeversimilitudenlaFigura8.

Además,endichastablas,sepuedeobservarlaprecisiónobtenidaaplicandoPCAenelvectordecaracterísticas.Laprecisión,reduciendoelvectordecaracterísticasmedianteelusodePCA,nodifieredelaprecisióndelvectordecaracterísticassinserreducido.

Enestapartedelanálisishemosobtenidoprecisiones iguales.Apartirdeahora,nosfijaremosensusensibilidadyespecificidad,heaquísudefinición:

• La sensibilidadnos indica la capacidaddenuestro clasificadorparadar comocasospositivosloscasosrealmentenegativos.

• la especificidad nos indica la capacidad de nuestro estimador para dar comocasosnegativosloscasosrealmentepositivos.

Ennuestrocasoestasdefinicionessepuedenajustarcomo:

111 0,557 0,557 96 0,505 0,50550 0,556 0,556 104 0,503 0,50317 0,549 0,55 21 0,502 0,5025 0,548 0,548 62 0,502 0,502

Tabla6:Rankingdelas164componentesquehanobtenidounaprecisiónmayora0.5

31

• Lasensibilidadnosindicarálacapacidaddenuestroclasificadorparadarcasosquesonhombresencasosquesonmujeres.

• Laespecificidadnosindicarálacapacidaddenuestroestimadorparadarcasosquesonmujeresloscasosquesonhombres

En la Tabla 8 se puede observar la sensibilidad y la especificidad obtenidos delclasificador para la RSN número 27. Podemos concluir de esta tabla que nuestroclasificadortiendeacatalogarcomomujerloscasosquesonhombres.

164COMPOENTES20RSNMÁS

CORRELACIONADAS NOPCA PCA NOPCA PCA

SENSIBILIDAD 0,576 0,576 0,576 0,576ESPECIFICIDAD 0,436 0,436 0,436 0,436

Tabla8:SensibilidadyEspecificidaddelclasificadorenlacomponente27.

32

Figura14:Vistadelacomponentenúmero27.

33

7 Conclusiones

Aliniciodeestetrabajo,lasexpectativasalbergabanlaposibilidaddeencontraralgunao algunas RSN/s que pudieran discriminar ambos sexos. Esas expectativas se hancumplido, ya que se ha logrado alcanzar este objetivo utilizando técnicas queactualmente están en funcionamiento. En este apartado, se detallará qué objetivoshemosllevadoacaboconéxito,ycuálespuedensermejorados.

7.1 Objetivosrealizados

Enelmarcodelaextraccióndecaracterísticascomunesyespecíficasdesujeto,sehalogradoentendertodalabasedelamateriaquesustentaelFSLsoftware.Sudificultadnohasidoningúnimpedimentoalahoraderealizaresteproyecto.

En cuantoa la implementación, seha intentadoelaboraruncódigo limpioy fácildeentender, asimismo, que hiciera la función de clasificar. En este sentido, estacodificacióndiáfanaposeelafinalidaddequeotrosinvestigadorespuedanusarloy/omejorarlo.

Losresultadosobtenidossonbastanteprometedores.HemosencontradounaRSNqueclasifica lossujetosdediferentesexoenbaseanuestrosdatosconunaprecisiónde0,683.

7.2 Mejorasposibles

UnadelasmejorasmásimportantesquesedeberealizaresunGroupICAconungrannúmero de sujeto. Se ha intentado aplicar un Group ICA con 50 sujetos, pero losrequisitosqueserequeríannoeransatisfechos,yaqueestatareaesalgocomplicadaysenecesitaunordenadorconaltasprestacionesparapoderrealizarlaconéxito.

OtramejoraposibleesprobarestametodologíaenlosdiferentesgruposdeedadesparaobtenersiestaRSNdiscriminativaobtenidasemantienealolargodelosrangosdeedad,oencasocontrario,laRSNvacambiandosegúnelrangodeedad.

Tambiénquedapendientediscutirlosresultadosconneuropsicólogosyhaceralgúntestestadísticoparaversielresultadoesestadísticamentesignificativo.

34

8 Referencias

[1] [Online].Disponible:https://www.coursera.org/course/fmri1

[2][Online].Disponible:https://www.coursera.org/course/fmri2

[3]

V.D.Calhoun,J.Lui,andT.Adali,“AreviewofgroupicaforfMRIdataandICAforjointinferenceofimaging,genetic,andERPdata”,NeuroImage,vol.45,no.1,ppS163-S1972,2009

[4] Groupcomparisonofresting-stateFMRIdatausingmulti-subjectICAanddualregression,2009

[5] B.B.Biswal,M.Mennes,X.-N.Zuo,S.Gohel,C.Kelly,S.M.Smith,C.F.Beckman,J.S.Adelstein,R.L.Buckner,S.Colcombeetal.¡., “Towarddiscoverscienceofhumanbrainfunction”,ProceedingsoftheNationalAcademyofScience,vol.107,no.10,pp4734-4739,2010

[6] [Online].Disponible:http://fsl.fmrib.ox.ac.uk/fsl/fslwiki/FSL

[7] [Online].Disponible:http://fsl.fmrib.ox.ac.uk/fsl/fslwiki/DualRegression

[8] [Online].Disponible:http://fsl.fmrib.ox.ac.uk/fsl/fslwiki/MELODIC

[9] [Online].Disponible:http://users.fmrib.ox.ac.uk/~stuart/thesis/chapter_3/section3_3.html

[10]

[Online].Disponible:http://scikit-learn.org/stable/index.html

[11] [Online].DIsponible:http://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf