redes de interacción de proteínas - computational ... · se sabe que proteínas funcionalmente...
TRANSCRIPT
Redes de Interacción de ProteínasRedes de Interacción de Proteínas
David A. Juan [email protected]
CNIO. Grupo de Biología Computacional Estructural.
Distintos niveles de resoluciónDistintos niveles de resolución
Conjuntos de interacciones detectadas experimentalmente
Uetz et al. Nature. 2000 (YEAST)Ito et al. PNAS. 2001 (YEAST)
Gavin et al. Nature. 2002 (YEAST)Ho et al. Nature. 2002 (YEAST)Giot et al. Science. 2003 (FLY)Li et al. Science. 2004 (WORM)
Butland et al. Nature. 2005 (E. coli)BarriosRodiles et al. Science. 2005 (MAMMALIAN)
Rual et al. Nature. 2005 (HUMAN)
Yeast twohybrid
Yeast twohybrid & localizaciónn celular
Yeast two-hybridAlgunos problemas
➢Falsos negativos:➢ Interferencia de los dominios fusionados.➢ Interacciones 1 Vs 1, no tiene en cuenta efectos cooperativos.
➢Falsos positivos:➢ Interacciones mediadas por terceras proteínas.➢ Es capaz de obtener interacciones lábiles, pero esto lo hace más
vulnerable a uniones inexpecíficas. ➢ Aunque el ensayo es in vivo, las condiciones no suelen serlo (sobre-
expresión, forzado en el núcleo, etc)➢ Baja reproducibilidad.
Purificación de complejos (TAPMS y HMSPCI)
Purificación de complejosSe generan redes diferentes de las de y2hNodos = complejos; Enlaces=comparten elementosSe desconoce la topología (interacciones protprot) de los complejos.
Modos de representación binaria de los datos obtenidos de complejos
Purificación de complejosAlgunos problemas
➢Falsos negativos:➢Interferencia del TAP-cassette en la interacción (~18% de las proteínas no son funcionalmente viables).➢Proteína no expresada en el momento de la lisis (se ha relacionado con la concentración de mRNA).➢Sesgo en contra de proteínas pequeñas (<15K).➢Detecta principalmente interacciones estables (se pierde las lábiles).
➢Falsos positivos:➢Proteínas pegajosas.➢Se estima un 70% de complejos reproducibles.➢Interacciones establecidas durante la lisis.
Solapamiento de los datos experimentales
Complejos gran escalaY2H gran escalaText MiningExperimentos pequeña escala
Combinando estrategias
Redes de interacciones predichas
Una revisión: Valencia & Pazos.Curr. Op. Struct. Biol. 2002
Algunas ideas de partida
➢Se sabe que proteínas funcionalmente relacionadas tienden a presentar Se sabe que proteínas funcionalmente relacionadas tienden a presentar una una evolución coordinada.evolución coordinada.
➢La interacción es una forma muy fuerte de relación funcional.La interacción es una forma muy fuerte de relación funcional.
➢Esto implica que la detección de proteínas que hayan evolucionado Esto implica que la detección de proteínas que hayan evolucionado coordinadamente puede ayudarnos a coordinadamente puede ayudarnos a predecir interaccionespredecir interacciones
➢ La evolución se estudia a través de la La evolución se estudia a través de la comparación de secuencias homólogascomparación de secuencias homólogas con con funciones comparablesfunciones comparables..
➢ Tanto la evolución génica, como la interacción de proteínas se han de estudiar en el Tanto la evolución génica, como la interacción de proteínas se han de estudiar en el contexto de los organismos.contexto de los organismos.
➢ Las trazas de evolución coordinada se encuentran por la Las trazas de evolución coordinada se encuentran por la acumulaciónacumulación de señales en de señales en un número alto de organismos.un número alto de organismos.
➢ Nos interesa identificar las proteínas que estan históricamente relacionadas Nos interesa identificar las proteínas que estan históricamente relacionadas ((homólogashomólogas), y desarrollan la ), y desarrollan la misma funciónmisma función (equivalogas). (equivalogas).
Algunas ideas de partida
Buscando evolución coordinadaPerfiles filogenéticos
➔ Un perfil filogenético es un vector que define la ausencia/presencia de un Un perfil filogenético es un vector que define la ausencia/presencia de un representante de un conjunto de equivalogos en cada organismo.representante de un conjunto de equivalogos en cada organismo.
➔ Las proteínas que interaccionan han de estar en los mismos organismosLas proteínas que interaccionan han de estar en los mismos organismos➔ La evolución tiende a eliminar proteínas innecesariasLa evolución tiende a eliminar proteínas innecesarias
Buscando evolución coordinadaGene neighbourhood
➔ Dos genes se consideran vecinos cuando están próximos Dos genes se consideran vecinos cuando están próximos en un genoma (menos de 600bp)en un genoma (menos de 600bp)
➔ Se sabe que en procariotas esta vecindad se usa para para Se sabe que en procariotas esta vecindad se usa para para optimizar la coordinación de su expresión.optimizar la coordinación de su expresión.
➔ Además genes próximos pueden ser eliminados y Además genes próximos pueden ser eliminados y transferidos juntos.transferidos juntos.
➔ La conservación de esta proximidad a lo largo de La conservación de esta proximidad a lo largo de diferentes organismos es una señal de evolución diferentes organismos es una señal de evolución coordinada.coordinada.
Dandekar Dandekar et al.et al. TIBS. 1998. TIBS. 1998.Overbeek Overbeek et al.et al. PNAS. 1999. PNAS. 1999.
Buscando evolución coordinada
Gene fusion
➔ La evolución genera secuencias híbridas por La evolución genera secuencias híbridas por fusión de otras más simples.fusión de otras más simples.
➔ Esto permite una mayor coordinación de las Esto permite una mayor coordinación de las funciones desempeñadas por ambas funciones desempeñadas por ambas proteínas.proteínas.
➔ Además permite el incremento de la Además permite el incremento de la complejidad de los organismos por complejidad de los organismos por combinación y especialización de dominios combinación y especialización de dominios (eucariotas).(eucariotas).
➔ La presencia de estas fusiones sugiere una La presencia de estas fusiones sugiere una interacción entre las secuencias homólogas interacción entre las secuencias homólogas no fusionadas.no fusionadas.
Marcotte et al. Science 1999Marcotte et al. Nature 1999Enright et al. Nature 1999.
Buscando evolución coordinadaMétodos basados en secuencia
➔Hay otro nivel de coordinación posible: coevolución de Hay otro nivel de coordinación posible: coevolución de secuencias.secuencias.➔Buscamos paralelismos históricos que deberían ser Buscamos paralelismos históricos que deberían ser detectables comparando la evolución de las secuencias de detectables comparando la evolución de las secuencias de diferentes conjuntos de equivalogos. diferentes conjuntos de equivalogos. ➔Para ello, construímos alineamientos múltiples de Para ello, construímos alineamientos múltiples de secuencias de estos conjuntos.secuencias de estos conjuntos. ➔Después hacemos pares de alineamientos comparables Después hacemos pares de alineamientos comparables extrayendo aquellas secuencias de los mismos extrayendo aquellas secuencias de los mismos organismos para ambos conjuntos.organismos para ambos conjuntos.
NCBI/TIGRNCBI/TIGRgenomesgenomes
44 genomes44 genomes(fastaformat)(fastaformat)
E. coliE. coliBLASTBLAST10E510E5
10E510E5
Best hit
Best hitVery strict homology assignment
(same ancestor, different organism and the best possible coupling)
Practical definition of equivalogy
Set of equivalogsSet of equivalogsMSAsMSAs
MUSCLEMUSCLE
Buscando evolución coordinada
MirrorTree
➔ Las proteínas que interaccionan tienden a compartir un conjunto de restricciones evolutivas Las proteínas que interaccionan tienden a compartir un conjunto de restricciones evolutivas comunes.comunes.
➔ Este método intenta detectar la coevolución al nivel de secuencias comparando una Este método intenta detectar la coevolución al nivel de secuencias comparando una simplificación de los árboles evolutivos de pares de alineamientos.simplificación de los árboles evolutivos de pares de alineamientos.
Pazos & Valencia. Proteins. 2002
HIS4_ECOLIHISX_ECOLI
Pazos & Valencia. Prot. Eng. 2001
Buscando evolución coordinada
In silico twohybrid
➔ Para un número de casos se ha mostrado la Para un número de casos se ha mostrado la existencia de patrones de substituciones existencia de patrones de substituciones correlacionados entre diferentes posiciones de una correlacionados entre diferentes posiciones de una secuencia (relacionado con proximidad espacial). secuencia (relacionado con proximidad espacial).
➔ Se cree que esto se debe a la coevolución de estas Se cree que esto se debe a la coevolución de estas posiciones (mutaciones recíprocas).posiciones (mutaciones recíprocas).
➔ Siguiendo esta lógica, buscamos estos Siguiendo esta lógica, buscamos estos comportamientos, no intraproteína, sino intercomportamientos, no intraproteína, sino interproteína en pares de alineamientos comparables.proteína en pares de alineamientos comparables.
➔ Una ventaja de este método es que permite la Una ventaja de este método es que permite la identificación de los resíduos responsables de este identificación de los resíduos responsables de este comportamiento (¿sitios de unión?)comportamiento (¿sitios de unión?)
Pazos & Valencia. Proteis. 2002
Métodos de predicción de interacciones
Métodos de predicción de interacciones
Métodos de predicción de interacciones
Algunos problemas generales de
los métodos de predicción
-> Falsos negativos:-> Se requiere una señal clara a lo largo de varios organimos.-> Si la detección de proteínas equiválogas falla, no se encuentra la señal.-> Una interacción dada no necesariamente debe mostrar ninguno de los indicios usados.
-> Falsos positivos:-> Las relaciones filogenéticas entre los organismos, suponen sesgos que pueden producir señales erróneas.-> La evolución coordinada tiene problemas para distinguir entre interacción física y asociación funcional.-> La evolución coordinada sufre de cierta transitividad (si a-b y b-c entonces a-c).-> El nivel de especificidad depende de la similitud entre las secuencias (distancias globales).
EciD (E. coli interaction Database)
http://www.pdg.cnb.uam.es/ecidhttp://www.pdg.cnb.uam.es/ecid
STRING
http://string.embl.de/
Otras redes relacionadas con interacción(basadas en literatura)
Blaschke & Valencia. Genome Inform Ser Workshop Genome Inform. 2001Hoffmann & Valencia. Nat. Genetics. 2004
c
SUISEKI
Extraction of the interactions Human expert manipulation
Pubmed15M entries
Extraction of protein names
* [protein A] ... verb indicating an action ... [protein B]“After extensive purification, Cdk2 was still bound to cyclin D1”
Rules (frames) to identify the interactions
Selecting terms that indicate interaction
activate, associated with, bind, interact, phosphorylate, regulateAction words are for example:
Selection of the text corpus
Hoffmann & Valencia Nat Genet 2004
Otras evaluaciones de conjuntosde interacciones
von Mering et al. Nature. 2002Lee et al. Science. 2004
Otra comparación de métodos (respecto a complejos)
Comparación más reciente (funcional)+
Predicción funcional
Aprendiendo de las redes de interacción
Una revisión: Barabasi & Oltvai. Nat. Rev. Genetics. 2004Un trabajo reciente: Lee et al. Science. 2004
Algunas carácterísticas
➢Distribución PowerLaw de conectividades > p(k)~kγ
(¿Scalefree?)➢Robusta a eliminación de nodos al azar.➢Los nodos más conectados suelen estar unidos a otros con pocas interacciones.➢Presenta módulos difíciles de detectar (¿Jerárquica?).
➔Estructura de la red: Red libre de escala.➔Coherente con un crecimiento por unión preferencial.➔Se han desarrollado simulaciones incluyendo crecimiento de la red por duplicación génica.
Evolución de las redes
Motivos, Función y Conservación
➔Se pueden describir motivos de un número pequeño de nodos y unas conexiones deternadas entre ellos.➔Algunos de estos motivos están sobrerrepresentados en las redes de interacción (y2h).➔Se puede ver que existe relación entre los motivos y el tipo de proceso celular.➔Además, los motivos más conectados están más conservados entre organismos (relacionado con la robustez de la red)
Wutchty, Oltvai & Barabasi. Nat. Genet. 2003.
Añadiendo la variable temporalInteracciones + Expresión
Ulrik de Lichtenberg,Lars Juhl Jensen,Søren Brunak,Peer Bork.Dynamic Complex Formation During the Yeast Cell Cycle. Science.2005.307,724-7
Buscando módulos funcionales
Coordena radial: basada en el tráfico que atraviesa al nodoCordenada angular: minimiza la longitud de las conexionesColor: Niveles de expresión 20 min después de un golpe de calor
Valente & Cusick. Nucleic Acids Research. 2006
Prediciendo función con redes de interacción
➔Contexto de red o dime con quien andas y te diré quien eres.➔Se asigna función basándose en la función de los nodos vecinos.➔Se reduce el número de enlaces entre proteínas con función diferente.
Vazquez et al, Nat Biotech. 2003
Predicción de función integrando información
Aproximación bayesiana estableciencio confianzas en función de rutas metabólicas.
Lee et al. Science. 2004.
Futuro➔ Está claro que los conjuntos de interacciones están lejos de ser completos. ¿Hasta dónde
pueden ayudar los métodos de predicción?➔ Las interacciones son importantes, pero sólo parte del sistema➔ La mayoría de los estudios no integran diferentes tipos de redes interacción, coexpresión,
metabolismo, regulación génica, etc.➔ Las redes de interacción no representan la naturaleza dinámica de la célula.➔ El análisis de las redes es muy joven, por lo que se requieren nuevos estudios para llegar a
comprenderlas.➔ Estos avances ayudarán a mejorar las predicciones de función, relevancia de las proteínas,
etc.➔ El estudio dinámico de los sistemas biológicos y de sus respuestas a determinadas
condiciones (estres, enfermedades, envejecimiento, etc) debe apoyarse en el conocimiento de las redes de interacción, regulación, rutas metabólicas, ...