perspectiva genómica de las familias de proteínas andrés cuadros suárez cristina donaire Ávila...

18
erspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Upload: angela-rodriguez-villanueva

Post on 23-Jan-2016

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Perspectiva genómica de las familias de proteínas

Andrés Cuadros SuárezCristina Donaire Ávila

Trifón Giménez Vázquez

Introducción a la Biología Computacional

Page 2: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Origen de la vida

Ideas principales: Subdivisiones en dominios

Evolución a partir de un gen ancestro

Secuenciación de genomas Agrupamientos naturales

Page 3: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Relación de los genomas

Familias homólogas: Ortólogos:

Especiación Conservan la función (normalmente)

Parálogos: Duplicación Evolucionan con nuevas funciones

Page 4: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Relación de los genomas (II)

Page 5: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Formación de COGs

COG: grupo de ortólogos o grupo ortólogo de parálogos

Buscar los BeTs BeT: Mejor acierto en otro genoma

Necesarios al menos 3 BeTs para formar un COG

Representar con líneas continuas las relaciones simétricas (ortólogos)

Representar con líneas discontinuas las relaciones asimétricas (parálogos)

Page 6: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Formación de COGs (II)

Agrupar triángulos con lado común hasta que no haya ninguno nuevo

Page 7: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS Los COGs no suplantan métodos

tradicionales de análisis filogenéticos, sino más bien, proveen del material apropiado para comenzar esos métodos.

El análisis descrito obtuvo un total de 720 COGs que incluyen 6814 proteínas y distintos dominos y multidominios de proteínas.

Page 8: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS Muchos de los COGs son grupos de

proteínas relativamente pequeños. Un tercio de los COGs (240 COGs con 1406 proteínas) contienen un representante de cada una de las especies incluidas, y 192 COGs más incluyen parálogos de una sola especie.

El número medio de proteínas por COGs aumenta según el número de genes de un genoma, de 1.2 para el M. genitalium a 2.9 para la levadura.

Page 9: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS Un aspecto notable es que es típico que uno

de los parálogos muestre consistentemente una alta similitud a los ortólogos en una o muchas de las otras especies (Figura 1, B y C). Así, para numerosos parálogos de la levadura, particularmente componentes del equipo de traducción, la causa subyacente es obvia: el gen cuyo producto es más similar a los ortólogos bacterianos es de origen mitocondrial (Fig. 1B).

Se han encontrado 549 proteínas en 302 COGs cuyos parálogos han mostrado consistentemente una baja similitud con otros miembros del COG (rápida evolución).

Page 10: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS

E E. coli

H H. influenzae

G M. genitalium

P M. pneumoniae

C Synechocystis

M M. jannaschii

Y S. cerevisiae

En esta figura podemos ver el análisis de los COGs en función de las funciones definidas y las especies. Para la mayor parte de los COGs, la función de la proteína se obtiene directamente de los experimentos, principalmente de E.Coli o levadura, o puede ser inferida de secuencias significativas similares a proteínas caracterizadas funcionalmente de otras especies

Page 11: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS

En la figura podemos observar la falta de proteínas de la bacteria patogénica (H. influenzae (H) y particularmente los mycoplasmas (G y P) ) en muchos COGs en cada una de las otras categorías funcionales que traducen y trascriben, pero especialmente en las clases con funcionalidad metabólica.

En cambio, la congruencia entre las dos bacterias sin parásitos, E. coli (E) y Synechocystis sp.(C), se mantienen para todos las clases funcionales.

Page 12: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS Fracción de proteinas pertenecientes a COGs:

70% M.genitalium 40% E.Coli 26% Levadura

Como vemos esta fracción es muy alta cuando trabajamos con genomas pequeños de micoplasmas y mucho más baja en grandes genomas como el E.Coli o la levadura.

Estos resultados se corresponden con lo esperado en las familias conservadas, asociadas con la administración de las funciones celulares.

Page 13: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS La distribución filogenética de los miembros de

un COG puede ser convenientemente presentada en términos de patrones filogenéticos los cuales muestran la presencia o ausencia de cada especie analizada

Page 14: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS Los dos patrones más abundantes pueden ser

fácilmente predichos: Todas las especies (Ehgpcmy) Todas las especies excepto los micoplasmas (Eh__cmy).

Lo que parece mucho menos trivial es que estos patrones juntos abarcan sólo un tercio de todos los COGs. Este hecho enfatiza la gran fluidez de la evolución de los genomas, revelada a pesar del análisis concentrado de familias antiguas conservadas.

Múltiples soluciones para la misma función celular parecen ser más una regla que una excepción, al menos cuando se consideran especies filogenéticamente distantes. Por otro lado, los 8 patrones más frecuentes que juntos componen el 85% de los COGs, incluyen tanto a E.coli como a Synechoscystis, enfatizando la congruencia entre estos genomas.

Page 15: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

ANÁLISIS DE RESULTADOS Resaltar el alto orden de distribución de los

COGs por los tres dominios de vida, donde sólo el 45% de los COGs incluyen representantes de Bacteria, Archaea, y Eucarya. Esto es otra manifestación de la dinámica de las familias de genes en la evolución (Fig. 3).

Se espera que el dibujo pueda convertirse en algo más complejo, y la fracción de COGs de los tres dominios probablemente disminuirá, pero los COGs sólo de eucariotas, sólo de archaea y el conjunto de archaea-eucariota, emergerán con la acumulación de secuencias del genoma.

Page 16: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Conectar y Expandir COGs Conectar COGs en super-familias

Usamos PSI-BLAST Dos COGs están conectados si dos

proteínas de un COG están en otro COG

Expandir COGs Hay proteínas distantes Usamos los motivos de las super-

familias y PSI-BLAST para conectarlas con COGs

Page 17: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Predicción de Funciones de Proteínas con el Sistema COG

El sistema COG permite la anotación automática funcional y filogenética de un gen

Para conectar una proteína con un COG Se realiza un análisis de la proteína

con el sistema La proteína se conecta con aquellos

COGs en los que se hayan dado dos o mas BeTs

Page 18: Perspectiva genómica de las familias de proteínas Andrés Cuadros Suárez Cristina Donaire Ávila Trifón Giménez Vázquez Introducción a la Biología Computacional

Conclusiones y Perspectiva Con los COGs podemos:

comparar genomas clasificar proteínas, predicción

funcional (con algunos problemas) Cuando se aumente el número

de genomas el sistema mejorará Es un gran marco de trabajo,

tanto funcional como evolutivo, para los nuevos genomas