© 2006 plataforma bioinformàtica de la uab introducció a la bioinformàtica bioinformàtica: la...

38
© 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico C ursd’introducció a la bioinform àtica C ursd’introducció a la bioinform àtica Plataform a Bioinform àtica de la UAB

Upload: eduardo-peralta-rio

Post on 23-Jan-2016

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Introducció a la BioinformàticaIntroducció a la Bioinformàtica

Bioinformàtica: la recerca biomèdica in silico

Cursd’introducció a la bioinformàticaCursd’introducció a la bioinformàticaPlataforma Bioinformàtica de la UAB

Page 2: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos, estructura

y función

Motivos, estructura

y función

Cursd’introducció a la bioinformàticaCursd’introducció a la bioinformàticaPlataforma Bioinformàtica de la UAB

Page 3: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Objetivos

•Análisis de la secuencia de aa de una proteína•alineamiento con proteínas homólogas•búsqueda de zonas conservadas

•Predecir la presencia de estructuras secundarias

•Analizar la presencia de motivos

Page 4: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Posibles estructuras secundariasPosibles estructuras secundarias• Hélice

alfa

• Hoja beta • Giro beta

•Random

coil

Motivos y estructuras: estructura secundaria

Page 5: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

• Métodos de predicción de estructura secunadaria basados en el analisis de la estructura primaria:

CHOU-FASMAN

DELEAGE&ROUX

GARNIER-ROBSON

Motivos y estructuras: métodos de predicción

Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)

Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)

Perfiles de densidad de carga

Page 6: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

• Método estadístico basado en estructuras cristalográficas ya resueltas • Calcula un parámetro conformacional para cada residuo de la proteína • Este parámetro refleja la preferencia de este residuo en hallarse en un tipo de estructura determinado• Inicialmente se basaron en 15 proteínas, después en 24 y finalmente en 64• Cuatro grupos de proteínas: alfa, beta, alfa+beta, alfa/beta

Limitaciones: no se puede usar con proteínas muy distintas a las 64 proteínas con la estructura conocida en que se basa este método

CHOU-FASMAN

Motivos y estructuras: métodos de predicción

Page 7: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

-Método estadístico basado en tres pasos:

predicción de la clase de proteína (según comp. Aa)

predicción de la estructura secundaria (frecuencia de cada residuo) nueva predicción optimizando parámetros

Limitaciones:si la predicción de la clase de proteína es correcto, la predicción de estructura secundaria es más acertada que en los otros métodos. Si la proteína no queda bien clasificada, la predicción no es fiable.

DELEAGE&ROUX

Motivos y estructuras: métodos de predicción

Page 8: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

-Método estadístico basado en estructuras cristalográficas ya resueltas (25)

-No sólo tiene encuenta la preferencia de un aa por una estructura, sino que además considera el entorno de este aa (ventana de 16 aa)

-Fundamentalmente se basa en los ángulos f y y del enlace peptídico y en los puentes de hidrógeno de las estructuras secundarias.

Limitaciones:la proteína problema no debe diferir substancialmente de las 25 proteínas de estructura conocida.

GARNIER-ROBSON

Motivos y estructuras: métodos de predicción

Page 9: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

-Karplus flexibility

Perfiles de probabilidad de encontrase en la superfície de la proteína

Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)

Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)

-Eisemberg moment

-Kyte-Doolitte

-Emini surface probability

Perfiles de densidad de carga

-Charge density

Motivos y estructuras: métodos de predicción

Page 10: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

-Karplus flexibility

Perfiles de probabilidad de encontrase en la superfície de la proteína

Perfiles de hidroafinidad (hidrofobicidad/hidrofilicidad)

Perfiles de flexibilidad. (flexibilidad de la cadena peptídica)

-Eisemberg moment

-Kyte-Doolitte

-Emini surface probability

Perfiles de densidad de carga

-Charge density

Motivos y estructuras: métodos de predicción

Page 11: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

• Métodos de predicción de estructura secunadaria basados NO solo en el analisis de la estructura primaria:

Motivos y estructuras: métodos de predicción

Neural Networks Models

GOR – METHOD (Garnier, Ousguthorpe and Robson)

PSA – METHOD (Protein Sequence Analysis)

Page 12: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

• Se basa en la consideración de que la estructura que adoptan los aa que flanquean un determinado aa central determinan la estructura que adapta este aa central.

• El método estudia los 8 aa N-terminales y los 8 aa C-terminal. Establece tres o cuatro (GOR III /GOR IV) matrices: una cuando el aa central es alfa, otra para beta, otro para random, y otra turn.

•Usa información teórica para la decisión final.

GOR – METHOD (Garnier, Ousguthorpe and Robson)

Motivos y estructuras: métodos de predicción

Page 13: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Neural Networks Models

Estos métodos contemplan tres niveles:

•El primer nivel: la preedición se realiza sobre alineamientos múltiples• El segundo nivel: se consideran los elementos de estructura secundaria en las proteínas homologa •El tercer nivel: promediar las predicciones obtenidas independientemente.

Motivos y estructuras: métodos de predicción

Page 14: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

PSA – METHOD (Protein Sequence Analysis)

•Este método predice la estructura secundaria de proteínas sin homología de secuencia y sin homología de estructura.

•Se basa en 15 modelos matemáticos. Se han establecido tres o cuatro superclases. Los modelos matemáticos establecen las restricciones de cada tipo de estructura alfa, beta, etc.. en cada superclase.

Motivos y estructuras: Interpro

Page 15: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

http://us.expasy.org

http://npsa-pbil.ibcp.fr/•http://bmerc-www.bu.edu/

•http://cubic.bioc.columbia.edu/predictprotein/

Motivos y estructuras: métodos de predicción

Page 16: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro

Page 17: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: métodos de predicción

Page 18: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro

Page 19: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro

Page 20: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro

Page 21: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: Interpro

Page 22: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

•Muchas proteínas tienen estructura «modular»•Estimación: ~ 3 dominios / proteína•Dominios (secuencias o estructuras conservadas) identificadas por alineamiento múltiple de secuencia

Dominio/motivo/patron

•Patrones (expresión regular); usado en dominios muy conservado

•Perfiles (matrices de pesos): tablas de dos dimensiones por posición específicos para match-, gap-, y insertion, derivados del alineamiento de secuencia de la familia, usado para dominios menos conservado

•Hidden Markov Model (HMM); modelo probabilístico.

Métodos para definir dominios

Motivos y estructuras: busqueda de motivos

Page 23: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Bancos de datos de motivos/familia

PROSITE Patrones / PerfilesProDom Alineado de motivos (PSI-BLAST) (Pfam B)PRINTS Alineado de motivosPfam HMM (Hidden Markov Models) SMART HMMTIGRfam HMM

DOMO Alineado de motivosBLOCKS Alineado de motivos (PSI-BLAST)CDD(CDART) PSI-BLAST(PSSM) de Pfam y SMART

Motivos y estructuras: busqueda de motivos

Page 24: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

http://us.expasy.org/prosite/

•consiste en patrones y perfiles significativos biológicamente

•ayudar a determinar a que familia de proteínas pertenece la secuencia.

Motivos y estructuras: busqueda de motivos

Page 25: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos

Generar Patrón Prosite

• G-H-E-x(2)-G-x(5)-[GA]-x(3)

Page 26: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos

Ejemplo Patrón PrositeEjemplo Patrón Prosite

<A-x-[ST](2)-x(3,5)-{V}

•< N-terminal

•x cualquier aa

•[ST] serina o treonina dos veces

•x(3,5) cualquier aa de 3 a 5 veces

•{V} cualquier aa excepto valina

Page 27: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos

Patrón Prosite

•Http://www.expasy.org/prosite/

Page 28: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos

Patrón Prosite. Ventajas:

. Rápido y fácil de implementar.

. Los modelos son fáciles de comprender. . Limitaciones:

. Pobre tratamiento de las inserciones/delecciones.

. Cuando los patrones son pequeños da muchos falsos positivos. . Los patrones largos son difíciles de ajustar al modelo. . No nos proporciona un score, está o no está.

. ¿Cuándo usar los patrones?

. Para usar motivos pequeños o centros activos.

. Para describir un motivo de forma sencilla.

Page 29: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos

Perfil PrositePerfil Prosite

Page 30: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Motivos y estructuras: busqueda de motivos

Perfil PrositePerfil Prosite. Ventajas:

. Podemos especificar cuando ocurren inserciones odelecciones.. Nos proporciona un score.. Se puede construir automáticamente.

. Limitaciones:. Muy caro en tiempo de CPU.. El software es más sofisticado.. La lectura del patrón no es intuitiva.

Page 31: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

InterPro

www.ebi.ac.uk/interpro

Motivos y estructuras: Interpro

InterPro integra:InterPro integra:

• Pfam• PROSITE• ProDom• SMART• TIGRFAMs

Page 32: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

InterPro

www.ebi.ac.uk/interpro

Motivos y estructuras: Interpro

Page 33: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Ejercicio 1Ejercicio 1

Determinar la predicción de estructura secundaria de Determinar la predicción de estructura secundaria de las siguientes proteínas. Utilizar diferentes métodos y las siguientes proteínas. Utilizar diferentes métodos y decidir que tipo de estructura es el mayoritario. decidir que tipo de estructura es el mayoritario.

Que proteasa utilitarias para aislar el C-terminal Que proteasa utilitarias para aislar el C-terminal (aprox 100 últimos aa) de la histona H10. Te serviría (aprox 100 últimos aa) de la histona H10. Te serviría esta misma proteasa para los otros subtiposesta misma proteasa para los otros subtipos

El C-terminal de esta proteína tiene putativos sitios El C-terminal de esta proteína tiene putativos sitios de fosforilacions para la CK2 y para la PKC.de fosforilacions para la CK2 y para la PKC.

Page 34: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

SecuenciasSecuencias::

H10, H10, TENSTSAPAAKPKRAKASKKSTDHPKYSDMIVAAIQAEKNRAGSSRQSIQKYTENSTSAPAAKPKRAKASKKSTDHPKYSDMIVAAIQAEKNRAGSSRQSIQKYIKSHYKVGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAKSDEPKKSVIKSHYKVGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAKSDEPKKSVAFKKTKKEIKKVATPKKASKPKKAASKAPTKKPKATPVKKAKKKLAATPKKAKAFKKTKKEIKKVATPKKASKPKKAASKAPTKKPKATPVKKAKKKLAATPKKAKKPKTVKAKPVKASKPKKAKPVKPKAKSSAKRAGKKK KPKTVKAKPVKASKPKKAKPVKPKAKSSAKRAGKKK

H12 H12 SETAPAAPAAAPPAEKAPVKKKAAKKAGGTPRKASGPPVSELITKAVAASKESETAPAAPAAAPPAEKAPVKKKAAKKAGGTPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSRSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKKAASGEAKPKVKKAGGTKPKKPVGAAKKPKKAAGGATPKKSAKKTPFKLNKKAASGEAKPKVKKAGGTKPKKPVGAAKKPKKAAGGATPKKSAKKTPKKAKKPAAATVTKKVAKSPKKAKVAKPKKAAKSAAKAVKPKAAKPKVVKPKKKKAKKPAAATVTKKVAKSPKKAKVAKPKKAAKSAAKAVKPKAAKPKVVKPKKAAPKKK AAPKKK

H13 H13 SETAPLAPTIPAPAEKTPVKKKAKKAGATAGKRKASGPPVSELITKAVAASKESETAPLAPTIPAPAEKTPVKKKAKKAGATAGKRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSRSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKKAASGEGKPKAKKAGAAKPRKPAGAAKKPKKVAGAATPKKSIKKTPKFKLNKKAASGEGKPKAKKAGAAKPRKPAGAAKKPKKVAGAATPKKSIKKTPKKVKKPATAAGTKKVAKSAKKVKTPQPKKAAKSPAKAKAPKPKAAKPKSGKPKVKKPATAAGTKKVAKSAKKVKTPQPKKAAKSPAKAKAPKPKAAKPKSGKPKVTKAKKAAPKKKKVTKAKKAAPKKK

Page 35: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Ejercicio 2

Para una proteína dada (ejemplo TDF humana):

• ¿Cómo saber si contiene dominios funcionales?

•¿Qué otras proteínas contienen ese mismo dominio funcional?

Page 36: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

Ejercico 3:Ejercico 3:

Has realizaHas realizado do un protocoloun protocolooo de purificación de purificaciónnn de de la prothymosin alfa humana (Q15200). la prothymosin alfa humana (Q15200). En lugar En lugar de obtenerde obtener una sola proteína, o una sola proteína, obbtitienes enes tres, tres, con con las siguientes características:las siguientes características:

proteína 1 Mr: 16000  pI:  7 proteína 1 Mr: 16000  pI:  7 proteína 2 Mr: 12000  pI: 3.7 proteína 2 Mr: 12000  pI: 3.7  proteina 3 Mr:  11000  pI: 6 proteina 3 Mr:  11000  pI: 6

Cual de ellas es la correcta, Cual de ellas es la correcta,

Que estrategia puedes utilizar para comprobar Que estrategia puedes utilizar para comprobar que realmente esta es tu proteína.que realmente esta es tu proteína.

Page 37: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

•Ejercicio 4:

El domino globular de la histona H5 (1Hst) se ha resuelto por cristalografía. Quieres estudiar la estabilidad de la primera hélice alfa. Que aproximación puedes seguir.

Page 38: © 2006 Plataforma Bioinformàtica de la UAB Introducció a la Bioinformàtica Bioinformàtica: la recerca biomèdica in silico

© 2006 Plataforma Bioinformàtica de la UAB

•Ejercicio 5: Construir un PatrónConstruir un Patrón