clase # 6: potencial estadístico (ii)
DESCRIPTION
Clase # 6: Potencial Estadístico (II). Prof. Ramón Garduño Juárez Modelado Molecular Diseño de Fármacos. Enfoque de Manfred Sippl et al. “ ¿Cuál es la probabilidad de observar C a de Leu a 5 Å de un C a de Ala?” - PowerPoint PPT PresentationTRANSCRIPT
Clase # 6: Potencial Estadístico (II)
Prof. Ramón Garduño Juárez
Modelado Molecular
Diseño de Fármacos
Enfoque de Manfred Sippl et al.• “¿Cuál es la probabilidad de observar C de Leu a 5 Å de un C de Ala?”
– f (s) : probabilidad para un par de residuos para estar separados por una distancia s.
– fab(s) : probabilidad para el residuo ab que ocurra a la distancia s.
• Potencial: Se requiere además que los residuos a, b son k residuos fuera de la secuencia primaria.
– Datos muy dispersos: 7 tipos de interacciones atómicas entre N, O, de la cadena principal y C. 20 de 20 residuos, más 20 intervalos para la distancia de secuencia k.
– Corrección de tamaño menor ad hoc : no muy diferente de una pseudo cuenta.
)(
)(ln (s)or
)(
)(
sf
sfT -kE
sf
sfk
kab
Babk
kab
n observació cada para peso : ; a pares de número :
)(1
)(1
1)(
kabm
sgm
msg
msf k
abkk
ab
Hendlicsh JMB 1990 216:167-80Sippl JMB 1990 213:859-883
Ejemplo del modelo HP en una malla
Construcción: Potencial Atómico
Base de datos de estructuras nativas no redundantes
Extraer las distancias observadas entre pares de átomos
E(i,j,distancia) = -logN(observada)
N(random)
Mi, Mj son la fracción molar de i y j
N(random) = N(total) Mi Mj
Validación: Potencial Atómico
El potencial atómico tuvo éxito en escoger las estructuras nativas de todos los señuelos de Park-Levitt. Las correlaciones de energía-RMSD son más altas de 0.6 en todos los casos.
RMSD (Å)
Potencial de unión proteína-proteína
20 x 20 potencial en la interfase
Aplicar el potencial
• Los potenciales se construyen a partir de los complejos proteína-DNA
• Su desempeño se revisa en una validación cruzada y z-score de secuencias azarosas de ADN
• Aplicar el potencial a casos de prueba reales
Potencial estadístico de unión Proteína-DNA
Conjunto de Datos - Complejos Proteína-DNA
• Resolución<=3 Angstrom
• Doble cadena ADN
• Semejanza de secuencias de proteína <= 35%
• 132 PDB estructuras de Rayos-X
Propensidades de los amino ácidos• Residuos de la Superficie área de superficie expuesta > 40% del área de superficie total del residuo
(DSSP)• Residuos enterrados = residuos totales – residuos de superficie• Residuos interfaciales d < 4.5 A
RESI DUE TYPE FOR PRO- DNA COMPLEX
0
2
4
6
8
10
12
14
16
18
I LE VAL LEU PHE CYS MET ALA GLY THR SER TRP TYR PRO HI S ASN GLN ASP GLU LYS ARG
PERCENTAGE
N bur i ed resi due i / N total bur i ed resi dues
N resi due i / N total resi dues
N i nter f aci al resi due i / N total i nter f aci al resi dues
N sur f ace resi due i / N total sur f ace resi dues
PROPENSIDADES DEL PUENTE DE HIDROGENONUMBER OF HYDROGEN BOND BETWEEN PROTEI N AND DNA BASE
0
50
100
150
200
250
300
ILE
VA
L
LE
U
PH
E
CY
S
ME
T
ALA
GLY
TH
R
SE
R
TR
P
TY
R
PR
O
HIS
AS
N
GLN
AS
P
GLU
LY
S
AR
G
A
T
C
G
NUMBER OF HYDROGEN BOND BETWEEN PROTEI N AND DNA BACKBONE
0
20
40
60
80
100
120
140
ILE
VA
L
LE
U
PH
E
CY
S
ME
T
ALA
GLY
TH
R
SE
R
TR
P
TY
R
PR
O
HIS
AS
N
GLN
AS
P
GLU
LY
S
AR
G
NU
MB
ER
ATC
G
Distribuciones espaciales de amino ácidos alrededor de bases
Arg-A-CBArg-C-CB
Arg-G-CB Arg-T-CB
Derivación de un potencial estadístico Grid-based
• Para un par de amino ácido a y base b en un punto de la malla s, el potencial está dado por
• Donde N ab es el numero de pares ab observados, w es el peso dado a cada observación, f(s) es la frecuencia relativa de la ocurrencia de cualquier amino ácido en los puntos de la malla contra cualquiera de
las bases , gab (s) es la frecuencia relativa equivalente a la ocurrencia del amino ácido contra la base b, K y T son las constantes de los gases y la temperatura absoluta respectivamente.
)(1
)(1
1)(
)(
)(ln)(
sgwN
wNsf
wNsf
sf
sfKTsE
ab
ab
ab
ab
ab
abab
• Para un par de amino ácido i y base j en un punto r de la malla, el potencial está dado por
),,exp(
),,(ln)rj,(i,rji
rjiobs
N
NRT
)(),,exp( rNxxN obsjirji
Derivación de un potencial estadístico Grid-based
Comparación con 50000 secuencias azarosasPDB Ranking Zscore PDB Ranking Zscore
1CGP 142 -2.813 LacZ 612 -2.291
1TF3 3 -3.345 LacZ 3 -2.345
1FJL 1 -4.28 LacZ 1 -4.062
1PDN 1 -4.819 malE 24 -3.951
1GLU 905 -2.241 malT 702 -3.369
1LAT 2 -3.874 araC 70 -2.309
1HCQ 1 -5.167 araE 5 -3.194
1OCT 1 -3.823 crp 522 -3.821
1AAY 1 -4.047 crp 2 -2.442
1MEY 1 -4.43 deoC 5 -4.346
1PYI 1053 -2.1 deoC 11 -3.968
1APL 1 -3.451 exuT 60 -3.693
1SVC 21 -3.365 fur 612 -3.179
1NFK 468 -2.289 galE 2562 -1.714
1YRN 2 -4.413 tnaA 15410 -0.492
glpD 37 -3.365
melR 99 -3.016
Puntos Clave
• Selección de la Base de Datos.
• Estado de Referencia.
• Validación.