anotación de genomas con ests

39
Anotación de Genomas con ESTs Eduardo Eyras Bioinformática UPF – Marzo 2006

Upload: jayme

Post on 19-Jan-2016

77 views

Category:

Documents


0 download

DESCRIPTION

Anotación de Genomas con ESTs. Eduardo Eyras Bioinformática UPF – Marzo 2006. Objetivos: Conocer un poco más sobre como se anotan genomas automáticamente Y el uso de ESTs para anotar genomas. Objetivo. Localización en el genoma de genes conocidos (known). Proteínas conocidas. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Anotación de Genomas con ESTs

Anotación de Genomas con ESTs

Eduardo Eyras

Bioinformática UPF – Marzo 2006

Page 2: Anotación de Genomas con ESTs

Objetivos:

Conocer un poco más sobre como se anotan genomas automáticamente

Y el uso de ESTs para anotar genomas

Page 3: Anotación de Genomas con ESTs
Page 4: Anotación de Genomas con ESTs
Page 5: Anotación de Genomas con ESTs
Page 6: Anotación de Genomas con ESTs
Page 7: Anotación de Genomas con ESTs

Objetivo

Page 8: Anotación de Genomas con ESTs

Proteínas conocidas Secuencias de mRNAs

Localización en el genoma de genes conocidos(known)

Page 9: Anotación de Genomas con ESTs

Alineamiento de proteínas/mRNAs al genoma en dos pasos

Resultado: estructura exónica

BLAST proteína/mRNA “query” contra genoma

Realinea proteína/mRNA “query” contra región genómica

1

2

Page 10: Anotación de Genomas con ESTs

. . . GCCGCACCTGAAGAGGGAAAAGC . . .

404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC : 428 ||||||||||||||||||++ 792 bp ++||||||| 27250191 : CAGCCGCACCTGAAGAGGgt.........................agGAAAAGC : 27251007

Secuencia genómica

mRNA “query”

Alineando mRNAs al genoma

Programas: Exonerate, Blat, Sim4, Spidey

Page 11: Anotación de Genomas con ESTs

DCUP_HUMAN 75 RFPLDAAIIFSDILVVPQ ALGMEVTM RF LDAAIIFSDILVVPQ ALGMEVTM RFLLDAAIIFSDILVVPQ ALGMEVTM HS307871 2141 ctccgggaattgacggccGTACCCA Intron 4 CAGgcgaggaa gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct cctgttcctccccttacg agcgggcg

Secuencia genómica partida en codones

La traducción de la secuencia genómica

Proteína “query”

Alineando Proteínas al genoma

DCUP_HUMAN . . . RFPLDAAIIFSDILVVPQALGMEVTM . . .

Programas: GeneWise, Exonerate

Page 12: Anotación de Genomas con ESTs

Proteína alineada al genoma

Combinando proteinas y mRNAs

mRNA alineado en el mismo locus

Anotación de un tránscrito con CDS y UTR

Page 13: Anotación de Genomas con ESTs

Como encontrar más genes(novel)

Programas de predicción de genes: e.g. Genscan, Geneid, SGP2, Twinscan, etc…

Predicción

Comparamos con bases de datos (Proteínas, mRNAs, ESTs, etc)

Tránscrito 2

Tránscrito 1

Contruimos tráncritos a partir de predicciones con evidencia

Page 14: Anotación de Genomas con ESTs

Anotación Funcional

Anotación (predicción a partir de proteína o mRNA)

Comparación con Bases de Datos con información Funcional

Page 15: Anotación de Genomas con ESTs

A la caza de genes

Consorcio Público (HGP): Secuenciación del Genoma

Inciativa privada (Craig Venter): Secuenciación de ESTs

Page 16: Anotación de Genomas con ESTs

ESTs (Expressed Sequence Tags)

Son fragmentos de secuencia obtenidos a partir de clones de cDNA

Tiene una longitud de 300-600 bases

Pueden contener parte del CDS y/o UTR

Traducción: Etiquetas de secuencias expresadas?

Page 17: Anotación de Genomas con ESTs

mRNA extraído de células de un determinado tejido, estado de enfermedad y desarrollo.

Obtención de cDNA

Page 18: Anotación de Genomas con ESTs

ESTs

AAAAAA 3’5’

TTTTTT5’3’Clone cDNA into a vector

Multiple cDNA clones5’ EST

3’ EST

Single-pass sequence reads

Page 19: Anotación de Genomas con ESTs

Variantes de splicing

Genoma

Tránscrito primario

Splicing

Clones de cDNA

Secuencias de ESTs(una única lectura)

5’ 3’ 5’ 3’

Muestreando el Transcriptoma con ESTs

oligo-dT primer

Transcriptasa Reversa

Page 20: Anotación de Genomas con ESTs

Longitud de los ESTs

Distribución de longitudes para ESTs de human

(dbEST)

~ 450 bp

Page 21: Anotación de Genomas con ESTs

Alineamiento de ESTs al genoma para anotar genes

•El alineamiento define exones e intrones

EST

GT AG GT AG

Page 22: Anotación de Genomas con ESTs

dbEST: Más de 7 MILLONES de ESTs de humano

Alineamiento algenoma humano~ 3 Gigabases

Page 23: Anotación de Genomas con ESTs

Bioinformática como una Tecnología

Desarrollo de software specializado:

Programas que mejoran en rapidez sin perder en calidad en los alineamientos.

Desarrollo de tecnología especializada:

Computación en paralelo con más de 2000 CPUs

Page 24: Anotación de Genomas con ESTs

Alineamiento de ESTs al genoma

Pueden contener colas polyA/polyT del cDNA: tenemos que cortarlas

Pueden contener contaminación del vector: tenemos que filtrarlos.

Pueden contener intrones no procesados (clones de tránscritos no maduros): damos preferencia a ESTs que alineen con 1 ó más intrones, con dinucleótidos consenso: GT—AG, AT—AC, GC—AG

Es secuenciación de baja calidad (1 única pasada): Solo aceptamos “matches” casi exactos al genoma (coverage >= 97%, percent id>= 95%)

Page 25: Anotación de Genomas con ESTs

Alineamiento de ESTs al genoma

EST

Mejor alineamiento en todo el genoma

Parálogo

Pseudogene procesado

GT AG

PolyA*Stop

AAAA

GT AG

Page 26: Anotación de Genomas con ESTs

Alineamiento de ESTs al genoma

EST quimérico

Trozo de gen A Trozo de gen B

Thomson et al.. Fusion of the human gene for the polyubiquitination coeffector UEV1 with Kua, anewly identified gene.Genome Res. 2000 Nov;10(11):1743-56Parra et al. Tandem chimerism as a means to increase protein complexity in the human genome.Genome Res. 2006 Jan;16(1):37-44

Page 27: Anotación de Genomas con ESTs

ESTs dan información sobre variantes de splicing

¿Cuales son los tránscritos representados por este set de ESTs alienados al genoma?

¿podemos averiguar el conjunto de mRNAs en este locus del genoma que supuestamente

han dado lugar ha estos ESTs?

ESTs

Genoma

Page 28: Anotación de Genomas con ESTs

Compatibilidades entre distintos ESTs

2 ESTs pueden tener estructura exónicas redundantes:

x

z

z es redundante con x -> es suficiente quedarnos con x

x + z

Page 29: Anotación de Genomas con ESTs

Extensión de la estructura exónica

Consider 2 ESTs in a Genomic Cluster with more ESTS

x

y

y extiende x, podemos asumir que provienen del mismo mRNA

x + y

Page 30: Anotación de Genomas con ESTs

Extensión de la estructura exónica

x

zw

ESTs como z no son muy frecuentes, por lo que tendremos fragmentación

El resultado depende de la representación de exones en los ESTs.

Sin embargo, ESTs suelen representar mayormente regiones 3’y 5’.

Page 31: Anotación de Genomas con ESTs

Complejidad de las estructuras exónicas

x

zw

En un grupo de ESTs pueden existir redundancias y extensiones. Todas pueden ser importantes:

w es compatible con z pero no con x, mantenemos z a pesar de ser redundante con x, para obtener z + w

x + zz + w

Page 32: Anotación de Genomas con ESTs

Predicciones

ESTs

Predicción de tránscritos a partir de ESTs

Podemos obtener predicciones de mRNAs teniendo en cuenta las compatibilidades entre ESTs.

Eyras et al. Genome Research 2004

Page 33: Anotación de Genomas con ESTs

Secuenciación de ESTs a gran escala en paralelo a la secuenciación de un genoma

Page 34: Anotación de Genomas con ESTs

ESTs proporcionan información sobre la expresión de genes

Ontologías eVOC http://www.sanbi.ac.za/evoc/

Sistema Anatómico

Tipo de Célula

Patología

Estado de Desarrollo

El tejido, órgano o sistema anatómico en el que se ha preparado la muestra. Por ejemplo: digestivo, pulmón, retina.

El tipo de célula en el que se ha preparado la muestra.Ejemplo: Linfocitos B, Fibroblasto.

El estado patológico del tejido en el que se preparó la muestra. Por ejemplo: normal, linfoma.

El estadio en el desarrollo del organismo en el cual se preparó la muestra. Por ejemplo: embrión, feto, adulto.

Page 35: Anotación de Genomas con ESTs

Ontologías eVOC http://www.sanbi.ac.za/evoc/

Sistema Anatómico

Tipo de Célula

Patología Estado de Desarrollo

…nervioso

cerebro cerebelo …

Librería 1 Librería 2 …

ESTs ESTs

ESTs proporcionan información sobre la expresión de genes

Page 36: Anotación de Genomas con ESTs

Como conectar el vocabulario de expressión con los genes previamente anotados

ESTs

GenesV Curwen et al. Genome Research (2004)

Page 37: Anotación de Genomas con ESTs

Vocabulario de expresión

Page 38: Anotación de Genomas con ESTs

CONCLUSIONES

La anotación de genomas requiere software especializado.

ESTs (muestreo parcial de mRNAs) son útiles para anotar genomas. En particular:, para obtener información sobre splicing alternativo y sobre el contexto de la expresión.

La producción de ESTs es rápida y barata pero los datos necesitan bastante procesamiento.

Los ESTs solo dan información sobre los tránscritos expresados por la célula. Para estudia regiones reguladoras necesitamos el genoma.

Page 39: Anotación de Genomas con ESTs

FIN