Download - Predicción estructural
Predicción estructural
Predicción estructural
• Sin homología– Predicción 1D– Predicción ab initio
• Homología remota– Threading
• Homología detectable– Modelado por homología
Predicción 1D
Objetivo: Obtener información estructural a partir de secuencia
Método general: Promedio de propiedades de aminoácidos a lo largo de la secuencia
AGGCFHIKLAAGIHLLVILVVKLGFSTRDEEASS
Promedio móvil en una ventana
Predicción 1D
Propiedades usuales
•Propensidades estructura secundaria
•Hidrofobicidad
•Accesibilidad
•H. transmembrana
Predicción 1D
•Métodos originales: Usan una secuencia y parámetros uniformes (fiabilidad 25-30%)
•Primeras mejoras: Uso de parametros espécificos para familias estructurales
•Métodos actuales: Usan perfiles obtenidos a partir de alineamientos múltiples y parámetros obtenidos a partir entrenamiento de redes neurales (fiabilidad 70-75%, hasta el 98% en hel. transmembrana)
PredictProtein (PHD)
1. Generación de un alineamiento múltiple usando Swissprot, prosite y bases de datos de dominios
2. Predicción 1D a partir del perfil generado usando una red neural.
3. Reconocimiento de plegamiento (threading)
4. Evaluación de fiabilidad
PredictProteinInformación disponible
• Alineamientos múltiples MaxHom• Motivos PROSITE• Composition-bias SEG• Threading TOPITS• Estruc. Secundaria PHDSec PROFsec• Hélices transmembrana PHDhtm, PHDtop• Globularidad GLOBE• Coiled-coil COILS• Puentes disulfuro CYSPRED
PredictProteinInformación disponible
• Péptidos señal SignalP
• O-glicosilacion NetOglyc
• Proteasas picornavirus NetPicoRNA
• Señal de cloroplasto CloroP
• Consenso estruc. sec. JPRED
• Transmembrana TMHMM, TOPPRED
• SwissModel
Prediccion estructural Prediccion estructural ab initioab initio
AVVTW...GTTWVRAVVTW...GTTWVR
• Conocimiento química-física de las proteínas
“En teoria” es posible plegar una proteína si se encuentra su mínimo global de energía.
• Problemas técnicos:
– Superficie de potencial es muy compleja
– Espacio conformacional es enorme
Simplificaciones
• Reducir el espacio conformacional– Se trabaja únicamente con 1 átomo por residuo– Se restringe el movimiento a una “lattice” fija
• Utilización de “energías” estadísticas– Distancias promedio entre residuos– Abundancia de interacciones
RESULTADOS AB INITIORESULTADOS AB INITIO
• Error promedio sobre Error promedio sobre 5 Å - 10 Å5 Å - 10 Å
• Difícil predecir Difícil predecir funciónfunción
• Mucho tiempo de Mucho tiempo de cálculocálculo
PROTEINA PROTEINA E.coliE.coli PREDICHA A 7.6 Å PREDICHA A 7.6 Å(CASP3, grupo de H.Scheraga)(CASP3, grupo de H.Scheraga)
Modelo estructural
• La calidad depende fuertemente del alineamiento
• Por debajo del 30% modelos muy pobres
• Para análisis precisos (diseño de fármacos, p.ej): similitud > 70 %
Threading: Comparación Threading: Comparación secuencia-estructurasecuencia-estructura
• Evalua “el grado de ajuste de la secuencia a la estructura”
• Utiliza propiedades diversas: distancias interresiduo, estructura secundaria, etc.
ATTWV....PRKSCTATTWV....PRKSCT SecuenciaSecuenciaHHHHH....CCBBBBHHHHH....CCBBBB Est.Secundaria Pr.Est.Secundaria Pr.eeebb....eeebebeeebb....eeebeb AcAccesibilidad Pr.cesibilidad Pr.
..........
SecuenciaSecuencia GGTV....ATTW ........... ATTVL....FFRK GGTV....ATTW ........... ATTVL....FFRKEst.Sec. Obs.Est.Sec. Obs. BBBB....CCHH ........... HHHB.....CBCB BBBB....CCHH ........... HHHB.....CBCB Acces. Obs.Acces. Obs. EEBE.....BBEB ........... BBEBB....EBBE EEBE.....BBEB ........... BBEBB....EBBE
ALINEAMIENTO SECUENCIA ALINEAMIENTO SECUENCIA - ESTRUCTURA- ESTRUCTURA
ESTRUCTURA BASE DATOSESTRUCTURA BASE DATOS
SECUENCIA INCOGNITASECUENCIA INCOGNITA
..HHH.. EST. SECUNDARIA OBSERVADA..HHH.. EST. SECUNDARIA OBSERVADA
..CCH.. EST. SECUNDARIA PREDICHA..CCH.. EST. SECUNDARIA PREDICHA
+INFORMACION SECUENCIA, ACCESIBILIDADINFORMACION SECUENCIA, ACCESIBILIDAD
Aspectos técnicosAspectos técnicos
• Alineamientos:Alineamientos: Programacion dinámica (Needleman & Programacion dinámica (Needleman & Wunsch, 1970)Wunsch, 1970)
• Función de puntuaciónFunción de puntuación::
wwseqseq.P.Pseqseq + w + wstrstr . (P . (PSSSS + P + PACAC))
PPseqseq: matriz de Dayhoff, P: matriz de Dayhoff, PSSSS y P y PACAC: modelo probabilístico: modelo probabilístico
Capacidad predictiva
• Porcentaje aciertos: 40 - 65 %, para Porcentaje aciertos: 40 - 65 %, para homólogos remotoshomólogos remotos
• Modelo estructural mejor que en los Modelo estructural mejor que en los métodos de comparación secuenciasmétodos de comparación secuencias
• Predicción funcional limitadaPredicción funcional limitada
MAS ALLA DE LA SECUENCIAMAS ALLA DE LA SECUENCIA
LIMITE COMP. SECUENCIASLIMITE COMP. SECUENCIAS
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
% ACIERTOS
5 10 15 20 25
% IDENTIDAD SECUENCIAS
Etapas 3D-PSSM
• Construcción de perfiles 1D / superfamilia• Construcción de perfiles 3D / superfamilia• Obtención/predicción de estructura
secundaria y accesibilidad• Se escoge la mejor de 3 puntuaciones
1. Estructuras vs. PSSM obtenido de la query2. Query vs. 1D-PSSM estructuras3. Query vs. 3D-PSSM estructuras
Modelado por homología
• Apto para homologías >30%
• La fiabilidad se incrementa mucho con homologías > 60%
Objetivo
• Obtener un modelo UTIL de la proteína problema, cuando se desconoce la estructura 3-D real– No necesariamente ha de ser el modelo
“correcto” o experimental!– A veces el modelo “correcto” no es útil.– La calidad del modelo no tiene porque ser
homogénea. Debe ser máxima en las regiones mas interesantes.
Nivel de precisión de la estructura modelada
• Depende dramáticamente de la calidad del alineamiento empleado para derivar el “template”
• Depende mucho del nivel de identidad con el “template”. En general se obtienen estructuras de calidad muy buena (RMSd C < 2 A) cuando identidad sobrepasa el 30%.
• La calidad en el trazado del backbone es siempre superior a la calidad en el posicionamiento de las cadenas laterales.
Etapas
1. Escoger modelos: Proteínas con estructura resuelta experimentalmente con homología significativa (BLAST, PFAM, PDB)
2. Generar alineamiento múltiple.– La calidad del alineamiento es crítica para la
fiabilidad del modelo– Evitar redundancias
Etapas
1. Alinear estructuralmente los modelos
2. Alinear la secuencia incógnita frente al conjunto de estructuras modelo
• El criterio de alineamiento estructural no coincide necesariamente con el alineamiento evolutivo
PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS (verde)
PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS (rojo)
PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS (azul)
Etapas
1. Alinear estructuralmente los modelos
2. Alinear la secuencia incógnita frente al conjunto de estructuras modelo
3. Construir las regiones conservadas (SCR)• Se utilizan las coordenadas de una estructura o un
promedio ponderado de ellas.
• Las cadenas laterales se adaptan a las originales y se utilizan conformeros estándar si ello no es posible
Etapas
1. Alinear estructuralmente los modelos
2. Alinear la secuencia incógnita frente al conjunto de estructuras modelo
3. Construir las regiones conservadas (SCR)
4. Modelado de las regiones no conservadas (“loops”)
Ab initio PDB
Construcción de “loops”
Construcción de “loops”Es necesario escoger
Optimización
1. Optimizar la conformación de cadenas laterales• Minimización restrigida a familia de conformeros y
energia VdW
2. Optimizar el conjunto• Minimización global con restricciones
• Dinámica molecular
Test de calidad
• No hay diferencias evidentes entre un modelo correcto y uno incorrecto
• La utilización de una estructura desde el punto de vista cuantitativo requiere que sea “químicamente correcta”
Programas de análisis
• PROCHECK
• WHATCHECK
• Suite Biotech
• PROSA
Fuentes de la información
• 300 mejores estructuras depositadas en PDB
• Datos geométricos de la base de datos CSD
• Datos teóricos (Ramachandran, p. Ej.)
Procheck
• Geometría covalente
• Planaridad
• Angulos dihedros
• Quiralidad
• Interacciones no enlazantes
• Puentes de hidrógeno de la cadena principal
• Puentes disulfuro
Software de predicción
– Swissmodel (automático)
– Composer (T.Blundell)
– 3D-JIGSAW (M.Stenberg)
– Modeller (A.Sali)
Valoración
• La verificación última es ver si el modelo justifica los datos experimentales y si tiene capacidad predictiva
UN MODELO NO ES CORRECTO O ERRONEO, ES UTIL O INUTIL