algoritmos heurísticos: fasta y blast. la pd no es adecuada para buscar en bd

45
Algoritmos heurísticos: FASTA y BLAST

Upload: celestina-jerez

Post on 22-Jan-2016

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Page 2: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

La PD no es adecuada para buscar en BD

Page 3: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Heurística

Page 4: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Un poco de historia

Page 5: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Page 6: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

PNAS (1988) 85, 2444-2448

El artículo original

Page 7: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

¿Bueno bonito y barato? No existe

Page 8: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Las ventajas de FASTA

Mayor sensibilidad = menos FN

Mayor selectividad = menos FP

Mayor velocidad de computación

Menor consumo de memoria

selectividad = especificidad

Page 9: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

El algoritmo FASTA

Page 10: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 1: Identidad

Page 11: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 1: Localizar k-tuplos idénticos (top ten)

Se agrupan las diagonales que estén a una cierta

distancia una de otra y, para cada secuencia de la

BD se localizan las 10 regiones con más densidad

de k-tuplos idénticos.

A partir de una secuencia problema se obtienen todos

los k-tuplos posibles mediante el método de la

ventana deslizante. Se comparan con los de las secuencias de la BD. Las

regiones idénticas aparecen como una diagonal.

IDENTIDAD

Secuencia problema

Se

cue

nci

a d

e la

BD

2 for proteins = 400 k-tuples

6 for DNA = 4096 k-tuples

Page 12: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 2: Similitud (limitada al top ten)

Page 13: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Se puntúan los top ten (init1)

SIMILITUD

Las 10 regiones con mayor densidad de k-tuplos idénticos

seleccionadas en la etapa anterior se vuelven a puntuar, esta vez utilizando una matriz

de sustitución. Esta puntuación es la variable init1.

Se identifican las subregiones que obtienen una mayor

puntuación (las denominadas regiones iniciales).

La región inicial con mayor valor init1 aparece marcada

con un asterisco.

Page 14: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 3: Unión de regiones iniciales (con huecos)

Page 15: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

FASTA intenta unir las regiones iniciales cuya puntuación supera un

determinado cutoff.

Se vuelven a puntuar las regiones unidas

penalizando los huecos creados. Esta puntuación

se denomina initn y permite hacer un ranking con las

secuencias de la BD.

Las secuencias que superen cierto umbral de

puntuación initn pasan a la cuarta etapa

Puntuación initn y ranking de secuencias

Page 16: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 4: Programación dinámica “bandeada”

Page 17: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 4: Alineamiento óptimo “bandeado” (opt)

Se utiliza un algoritmo de PD modificado (SW

bandeado) para alinear la secuencia problema con la

secuencia de la BD. El alineamiento se limita a una estrecha banda centrada en

el segmento init1 y que engloba a las diagonales de

mayor puntuación.

La puntuación de este alineamiento es el

parámetro opt, con el que se hace un ranking de

alineamientos. También se determina su significación

estadística (E-value).

Page 18: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

PD bandeada

Etapa nº 1

SIMILITUD

IDENTIDAD

Etapa nº 2

Los 10 mejores

init1

UNIÓN (gaps)Etapa nº 3 initn

Etapa nº 4 opt + E-value

ResultadoOperación

Las cuatro etapas de FASTA

Page 19: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

http://www.ebi.ac.uk/Tools/sss/fasta/

Page 20: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Variantes del programa FASTA

Page 21: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml

Page 22: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Page 23: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

J. Mol. Biol. (1990), 403-410

BLAST1

Page 24: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Aplicaciones de BLAST

Page 25: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

1.- Procesamiento previo de la secuencia problema

Page 26: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Se descompone la secuencia problema en “palabras”

Mediante el método de la “ventana deslizante” se descompone la secuencia problema en

“palabras”. El parámetro W (word size) determina el número de caracteres de las palabras.

Habitualmente, para proteínas W = 3 y para ADN W = 11

Al aumentar W se gana velocidad a costa de perder

sensibilidad

Page 27: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

A cada palabra se le asocian “vecinas” (neighbors)

Se puntúa cada palabra aplicando una matriz de sustitución. Sólo se tendrán en cuenta las

palabras cuya puntuación supere un valor T.

Al aumentar T se gana velocidad a costa de perder

sensibilidad

Page 28: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Con cada palabra se elabora una lista de “palabras parecidas”

Resultado de la primera etapa de BLAST

Page 29: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

2.- Se buscan coincidencias en las secuencias de la BD

Page 30: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Coincidencias (word hits) entre dos secuencias

Page 31: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Un valor de T elevado disminuye la sensibilidad (se reduce le número de “hits” y

se puede perder algún alineamiento significativo) pero aumenta la velocidad.

Un valor de W pequeño aumenta la sensibilidad pero

disminuye la velocidad.

Efecto de los parámetros W (word size) y T (threshold)

Una selección adecuada de W, T y la matriz de

puntuación permite controlar de manera eficaz la

sensibilidad y la rapidez del algoritmo

Page 32: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLASTBLAST1 intenta extender el alineamiento a ambos lados de cada coincidencia (sin dejar huecos), utilizando una variante del algoritmo de Smith-Waterman.

Etapa nº 3: extensión de las “coincidencias” (hits)

Page 33: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

¿Cuándo se detiene la extensión? → el parámetro X

Caída (X) = 5 (se para y retrocede hasta el valor máximo)

Caída (X) = 2 (sigue)

Máximo = 9

Page 34: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Selección de los HSP (high scoring pairs)

Page 35: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 4: ranking de HSP (en función del valor E)

SKmneE

Page 36: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

El valor E

Page 37: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Nucleic Acids Res. 25:3389-3402 (1997)

BLAST2

Page 38: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Etapa nº 3: algoritmo de la “doble coincidencia”

BLAST-2 utiliza el algoritmo de la doble coincidencia (two-hit algorithm): una

palabra sólo se extiende (sin huecos) si existe otra en la

misma diagonal a una distancia menor que A. El valor del parámetro A lo

establece el usuario.

Esta extensión genera una serie de

alineamientos con una puntuación

elevada (HSP, high scoring pairs)

Page 39: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Este requisito reduce la sensibilidad del

método (se extienden menos palabras). Esta

circunstancia se puede compensar disminuyendo el parámetro T (el

umbral de puntuación que se utiliza en la primera

etapa para generar la lista de “palabras

parecidas”).

Se reduce T para compensar la menor sensibilidad

+ (T = 13)

• (T = 11)

Page 40: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Se hace una extensión con huecos en los mejores HSP

Page 41: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Subsecuencia del HSP de 11 caracteres con la

máxima puntuación

Residuo central de Alanina donde comienza, en ambas direcciones, el

alineamiento local con huecos

¿Dónde empieza el alineamiento con huecos?

Page 42: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

¿Dónde acaba el alineamiento con huecos?

El alineamiento local con huecos se lleva a cabo en ambas direcciones siempre y cuando la máxima puntuación alcanzada no se reduzca en un valor superior a Xg.

Page 43: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

Los alineamientos se muestran en función del valor E (ordenados de menor a mayor). El valor E indica el número de veces que uno esperaría encontrar por puro azar un alineamiento con una puntuación igual o mayor en una BD de

igual tamaño y composición.

Los resultados se ordenan en función del valor E

Page 44: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

NCBI-BLAST

http://blast.ncbi.nlm.nih.gov/Blast.cgi

Page 45: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD

Algoritmos heurísticos: FASTA y BLAST

http://www.ebi.ac.uk/Tools/sss/wublast/

WU-BLAST