engalçament de seqüències

31
Engalçament de seqüències aplica en dos línies: alçament d’EST: trobar el gen que s’expressa en aquella c a partir d’un segment del RNA corresponen üenciació del DNA: trobar la seqüència de bases de la cadena

Upload: dakota

Post on 08-Jan-2016

28 views

Category:

Documents


0 download

DESCRIPTION

Engalçament de seqüències. S’aplica en dos línies:. Seqüenciació del DNA: trobar la seqüència de bases de la cadena de DNA. Engalçament d’EST: trobar el gen que s’expressa en aquella celula a partir d’un segment del RNA corresponent. Seqüenciació del DNA. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Engalçament de seqüències

Engalçament de seqüències

S’aplica en dos línies:

• Engalçament d’EST: trobar el gen que s’expressa en aquella celula a partir d’un segment del RNA corresponent.

• Seqüenciació del DNA: trobar la seqüència de bases de la cadena de DNA.

Page 2: Engalçament de seqüències

Seqüenciació del DNA

De quines tècniques es disposa:

• Trets: permet disparar sobre la seqüència i trencar-la en trossos.

• Hibridació: permet saber quins mots d’una longitud fixa es troben a la seqüencia.• Hibridació: permet saber quins mots d’una longitud fixa es troben a la seqüencia.

Page 3: Engalçament de seqüències

Hibridació

Imaginem que volem conèixer la seqüència xxxxxxxxxxxxx

i sabem que conté els següents mots de tres lletres:

AAC GAT TGCACG CGG GCC TTG GGA ATT

Com podem deduir la seqüència?

Page 4: Engalçament de seqüències

Hibridació

Crear un graf de coincidències sufix-prefix de dues bases

AAC GAT TGC

ACG CGG GCC TTG

GGA ATT

AACGGATTGCC

Seguir el camí determinat en el graf

Quin és el cost de trobar el camí?

Page 5: Engalçament de seqüències

Hibridació

Considerem un cas més real:

Buscar el camí Hamiltonià (NP-Complet)

Quin és el cost de tot el procés?

AAC CAA GAT TGC

ACG CGG GCC TTG

GGC GGA CCG ATT

Page 6: Engalçament de seqüències

Hibridació: mètode

Cost: 1. Trobar els mots AAC, CAA, ACG,... :

2. Trobar els enllaços AAC ACA,... :

Generar en el laboratori els 4L trossos i buscar-los

Si hi ha m mots de longitud L, doncs O(m2 L2 ) comparacions

3. Crear el graf i buscar el camí Hamiltonià

NP- Complet

Page 7: Engalçament de seqüències

Excursió: cost

Cost quadràtic: O(m2 )

Cost lineal: O(m)

Cost exponencial: O(2m )

m t = 1 mseg10m 10t = 10 mseg1000m 1000t = 1 seg

m t = 1mseg.10m 100t = 100 mseg.1000m 1000000t = 16 min

m t = 1 mseg.10m 210 t = 1 seg1000m 21000 t = 1030 t = 1018 anys

Page 8: Engalçament de seqüències

Hibridació: mètode

Cost: 1. Trobar els mots AAC,CAA,ACG,... :

2. Trobar els enllaços AAC ACA,... :

Generar en el laboratori els 4L trossos i buscar-los

Si hi ha m mots de longitud L, doncs O(m2 L2) comparacions

3. Crear el graf i buscar el camí hamiltonià

NP- Complet

Com podem evitar la NP-completesa?

Page 9: Engalçament de seqüències

Hibridació: dues reduccions

Buscar el camí Hamiltonià (NP-complet)

AAC GAT TGC

ACG CGG GCC TTG

GGC GGA CCG ATT

o bé buscar el camí Eulerià (lineal) AA

AC

GG

CG

GA

CC

GC

TG

TT

AT

Page 10: Engalçament de seqüències

Hibridació: camí Eulerià

Definir nodes desequilibrats: grau entrada=grau sortida(Nodes de començament o acabament: )

Definir nodes equilibrats: grau entrada=grau sortida(nodes de pas: )

Buscar el camí Eulerià d’un graf:

Page 11: Engalçament de seqüències

Hibridació: camí Eulerià

Algorisme: Crear un camí a l’atzar des d’un node inicial Afegir circuïts des de nodes equilibrats

Page 12: Engalçament de seqüències

Hibridació: camí Eulerià

Algorisme: Crear un camí a l’atzar des d’un node inicial Afegir circuïts des de nodes equilibrats

Page 13: Engalçament de seqüències

Hibridació: mètode

Cost: 1. Trobar els mots AAC,CAA,ACG,... :

2. Trobar els enllaços AAC ACA,... :

Generar en el laboratori els 4L trossos i buscar-los

Si hi ha m mots de longitud L, doncs O(m2 L2) comparacions

3. Crear el graf i buscar el camí hamiltonià

NP- Complet

Quin és el factor limitant?

Page 14: Engalçament de seqüències

Hibridació: problemes

AAC CAA GAT TGC

ACG CGG GCC TTG

GGA ATT

Trossos repetits

Quina és la probabilitat de que un tros es repeteixi?

CAACGGATTGCC

CAACGGACGGATTGCC

GAC

Page 15: Engalçament de seqüències

Hibridació

Model: seqüència aleatòria de longitud N amb distribució equiprobable (1/4),

Estimem la probabilitat de que un tros es repeteixi:

Donats 2 trossos, probabilitat de que siguin iguals: 4-L

Donats 3 trossos, probabilitat de que n’hi hagi dos d’iguals: (32)4-L

Donats m trossos, probabilitat de que n’hi hagi dos d’iguals: (m2)4-L

Si L=8 i volem una probabilitat del 1%, llavors m =32

Conclusió: la tècnica d’hibridació només serveix per conèixer seqüències molt curtes.

Page 16: Engalçament de seqüències

Excursió: hipòtesi d’equiprobabilitat

Cromosoma 21 té unes 34Mb distribuïdes:

A: 30% C: 20% G:20% T:20%

i si tenim en compte parells de bases, per exemple

AA: 10% AC: 5%

Fins a quin punt són equiprobables les seqüències?

Page 17: Engalçament de seqüències
Page 18: Engalçament de seqüències

Seqüenciació del DNA

De quines tècniques es disposa:

• Trets: permet disparar sobre la seqüència i trencar-la en trossos.

• Hibridació: permet saber quins mots d’una longitud fixa es troben a la seqüencia.

Page 19: Engalçament de seqüències

Trets

Imaginem que volem conèixer la seqüència xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

i la nostra tècnica ens permet :

• copiar-la

• partir-la a l’atzar en trossos de diferent llargada i sense saber-ne l’ordre

Què podem fer?

Page 20: Engalçament de seqüències

Trets: algorisme

Imaginem xxxxx|xxxxxxx|xxxxxxx|xxxx xxxxxxxx|xxxxxx|xxxxxx|xxxxxxx|xxxxxx|xxxxxx|xxxxxxx

L’algorisme serà:

1er. Comparar tots els trossos dos a dos per esbrinar com es superposen (eliminant inclusions).

2on. Construir el graf sufix-prefix

3er. Buscar el camí

Page 21: Engalçament de seqüències

Trets

La copiem tres cops xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

n’obtenim els trossos

accgt, aggt, acgatac, accttta, tttaac, gataca, accgtacc, ggt, acaggt,taacgat, accg, tacctt

Page 22: Engalçament de seqüències

Trets

Cal comparar els trossos per veure quins engalcen sufix-prefix

• Directament amb programació dinàmica (Cost quadràtic)

(tots contre tots i la majoria no engalceran)

• En dos passos:• Detectar els que engalcen

(Cost lineal amb l’Algorisme hash)

• Aplicar Prog. Dinàmica només als que engalcen

Page 23: Engalçament de seqüències

Excursió: algorisme de hash

Page 24: Engalçament de seqüències

Trets

accgtaccaccttta

tacctt

tttaac taacga

acgatac

accgaccgt

tacaggt

gataca

construïm el graf (cost quadràtic)

accgtacctttaacgatacaggt

i aconseguim la seqüència (cost exponencial)

Page 25: Engalçament de seqüències

Trets: problemes

Problemes

xxxxxxxxxxxxx

xxxxx

xxxxxx xxxxxx xxxxxxxx

accgaccgt

xxxxxxxxxxxxxx

• Repeticions consecutives• Repeticions curtes llunyanes• Falta de recobriment (problemes al seqüenciar)• Errors en els trossos (problemes al seqüenciar)

Page 26: Engalçament de seqüències

Trets: propietats del recobriment

Estudiem el recobriment:

Qüestions importants:

• Quina és la llargada mitja dels “contigs”?

• Quin es el nombre esperat de “contigs”?

• Quin és el percentatge de recobriment de la seqüència?

Page 27: Engalçament de seqüències

Trets: percentatge de recobriment

Grau de cobertura de la seqüència N d / L

Quin és el percentatge de recobriment de la seqüència?L

N d

Suposem que els segments estan uniformament distribuïts.

que una base de la seqüència sigui recoberta per k segments ve donada per la Dist. Binomial (N,d / L):

La probabilitat de

Prob{X=k}= (d/L)k (1-d/L)n-kNk

Page 28: Engalçament de seqüències

Excursió: distribució binomial

Distribució binomial B(n,p):

amb probabilitats p i 1-p de que hi caigui una bola.

Tenim dues urnes:

p 1-p

Quina és la probabilitat de que d’entre n boles en caiguin ka la primera urna?

Prob{X=k}= pk (1-p)n-knk

Page 29: Engalçament de seqüències

Excursió: distribució de Poisson

Quin és el límit de la distribució binomial quan n i p 0

conservant-se constant el producte np=

Distribució de Poisson P()

Prob{X=k}= e- (demostració a classe)k

k!

Llavors la probabilitat de que almenys caigui una bola és

Prob{X>0}= 1-Prob{X=0}= 1- e-

Page 30: Engalçament de seqüències

Trets: percentatge de recobriment

Si volem un recobriment del 99% cal que N d / L = 4.6

Distribució Binomial (N ,d / L)

Distribució de Poisson (N d / L)N d/L 0

Llavors el percentatge de recobriment ve donat per

la probabilitat de que al menys un tros cobreixi cada punt

1- e(N d / L)

Si volem un recobriment del 99.9% cal que N d / L = 6.9

Page 31: Engalçament de seqüències

Engalçament d’EST

Tenim milers de trosso de unes 500 bases de longitud,que pertanyen a diferents

L’algorisme serà:

1er. Comparar tots els trossos dos a dos per esbrinar quins estan relacionats(eliminant inclusions).

2on. Construir el graf sufix-prefix: (surten molts petits grafs)

3er. Buscar el camí