clase # 6: potencial estadístico (ii)

Clase # 6: Potencial Estadístico (II)

Prof. Ramón Garduño Juárez

Modelado Molecular

Diseño de Fármacos

Enfoque de Manfred Sippl et al.• “¿Cuál es la probabilidad de observar C de Leu a 5 Å de un C de Ala?”

– f (s) : probabilidad para un par de residuos para estar separados por una distancia s.

– fab(s) : probabilidad para el residuo ab que ocurra a la distancia s.

• Potencial: Se requiere además que los residuos a, b son k residuos fuera de la secuencia primaria.

– Datos muy dispersos: 7 tipos de interacciones atómicas entre N, O, de la cadena principal y C. 20 de 20 residuos, más 20 intervalos para la distancia de secuencia k.

– Corrección de tamaño menor ad hoc : no muy diferente de una pseudo cuenta.

)(

)(ln (s)or

)(

)(

sf

sfT -kE

sf

sfk

kab

Babk

kab

n observació cada para peso : ; a pares de número :

)(1

)(1

1)(

kabm

sgm

msg

msf k

abkk

ab

Hendlicsh JMB 1990 216:167-80Sippl JMB 1990 213:859-883

Ejemplo del modelo HP en una malla

Construcción: Potencial Atómico

Base de datos de estructuras nativas no redundantes

Extraer las distancias observadas entre pares de átomos

E(i,j,distancia) = -logN(observada)

N(random)

Mi, Mj son la fracción molar de i y j

N(random) = N(total) Mi Mj

Validación: Potencial Atómico

El potencial atómico tuvo éxito en escoger las estructuras nativas de todos los señuelos de Park-Levitt. Las correlaciones de energía-RMSD son más altas de 0.6 en todos los casos.

RMSD (Å)

Potencial de unión proteína-proteína

20 x 20 potencial en la interfase

Aplicar el potencial

• Los potenciales se construyen a partir de los complejos proteína-DNA

• Su desempeño se revisa en una validación cruzada y z-score de secuencias azarosas de ADN

• Aplicar el potencial a casos de prueba reales

Potencial estadístico de unión Proteína-DNA

Conjunto de Datos - Complejos Proteína-DNA

• Resolución<=3 Angstrom

• Doble cadena ADN

• Semejanza de secuencias de proteína <= 35%

• 132 PDB estructuras de Rayos-X

Propensidades de los amino ácidos• Residuos de la Superficie área de superficie expuesta > 40% del área de superficie total del residuo

(DSSP)• Residuos enterrados = residuos totales – residuos de superficie• Residuos interfaciales d < 4.5 A

RESI DUE TYPE FOR PRO- DNA COMPLEX

0

2

4

6

8

10

12

14

16

18

I LE VAL LEU PHE CYS MET ALA GLY THR SER TRP TYR PRO HI S ASN GLN ASP GLU LYS ARG

PERCENTAGE

N bur i ed resi due i / N total bur i ed resi dues

N resi due i / N total resi dues

N i nter f aci al resi due i / N total i nter f aci al resi dues

N sur f ace resi due i / N total sur f ace resi dues

PROPENSIDADES DEL PUENTE DE HIDROGENONUMBER OF HYDROGEN BOND BETWEEN PROTEI N AND DNA BASE

0

50

100

150

200

250

300

ILE

VA

L

LE

U

PH

E

CY

S

ME

T

ALA

GLY

TH

R

SE

R

TR

P

TY

R

PR

O

HIS

AS

N

GLN

AS

P

GLU

LY

S

AR

G

A

T

C

G

NUMBER OF HYDROGEN BOND BETWEEN PROTEI N AND DNA BACKBONE

0

20

40

60

80

100

120

140

ILE

VA

L

LE

U

PH

E

CY

S

ME

T

ALA

GLY

TH

R

SE

R

TR

P

TY

R

PR

O

HIS

AS

N

GLN

AS

P

GLU

LY

S

AR

G

NU

MB

ER

ATC

G

Distribuciones espaciales de amino ácidos alrededor de bases

Arg-A-CBArg-C-CB

Arg-G-CB Arg-T-CB

Derivación de un potencial estadístico Grid-based

• Para un par de amino ácido a y base b en un punto de la malla s, el potencial está dado por

• Donde N ab es el numero de pares ab observados, w es el peso dado a cada observación, f(s) es la frecuencia relativa de la ocurrencia de cualquier amino ácido en los puntos de la malla contra cualquiera de

las bases , gab (s) es la frecuencia relativa equivalente a la ocurrencia del amino ácido contra la base b, K y T son las constantes de los gases y la temperatura absoluta respectivamente.

)(1

)(1

1)(

)(

)(ln)(

sgwN

wNsf

wNsf

sf

sfKTsE

ab

ab

ab

ab

ab

abab

• Para un par de amino ácido i y base j en un punto r de la malla, el potencial está dado por

),,exp(

),,(ln)rj,(i,rji

rjiobs

N

NRT

)(),,exp( rNxxN obsjirji

Derivación de un potencial estadístico Grid-based

Comparación con 50000 secuencias azarosasPDB Ranking Zscore PDB Ranking Zscore

1CGP 142 -2.813 LacZ 612 -2.291

1TF3 3 -3.345 LacZ 3 -2.345

1FJL 1 -4.28 LacZ 1 -4.062

1PDN 1 -4.819 malE 24 -3.951

1GLU 905 -2.241 malT 702 -3.369

1LAT 2 -3.874 araC 70 -2.309

1HCQ 1 -5.167 araE 5 -3.194

1OCT 1 -3.823 crp 522 -3.821

1AAY 1 -4.047 crp 2 -2.442

1MEY 1 -4.43 deoC 5 -4.346

1PYI 1053 -2.1 deoC 11 -3.968

1APL 1 -3.451 exuT 60 -3.693

1SVC 21 -3.365 fur 612 -3.179

1NFK 468 -2.289 galE 2562 -1.714

1YRN 2 -4.413 tnaA 15410 -0.492

glpD 37 -3.365

melR 99 -3.016

Puntos Clave

• Selección de la Base de Datos.

• Estado de Referencia.

• Validación.

clase # 6: potencial estadístico (ii)

Documents