¿como podemos saber donde están localizados los genes conociendo únicamente la información de la...

34
¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Upload: belen-padua

Post on 28-Jan-2016

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

¿Como podemos saber donde están

localizados los genes conociendo únicamente la información de la secuencia?

Page 2: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

OrganismoTamaño del Genoma

# de genesUnidad génica.(Tamaño promedio de un gen)

Procariota:      

Mycoplasma genitalium 0.58 473 1235 bp

Haemophilus influenzae 1.8 1,709 1042 bp

Eucariota:      

Saccharomyces cerevisiae 1.3 6,241 2,100 bp

Neurospora crassa 42.9 10,000 - 13,000 3,000 - 4,000 bp

Drosophila melanogaster 165 13,601 10,000 bpCaenorhabditis elegans 100 18,424  Homo sapiens   2,910 30,000 - 40,000

Page 3: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

I. Transcripto de 1 solo gen

ATG TAA

Transcripto (RNAm)

Secuencia codificante

Sitio de inicio de la transcripción

Promotor

Sitio de unión a ribosoma (RBS)

hisG

Fin de la traducción

Terminador transcripcional

La orientación del promotor determina el sentido de la transcripción (y por lo tanto cuál de las 2 hebras se transcribe)

Sitio inicio de la traduccion (ATG)

Page 4: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

II. Operón Policistrónico

ATG TAA

Transcripto (RNAm)

Secuencia codificante

Sitio de inicio de la transcripción

Promotor

hisG

Fin de la traducción

Terminador transcripcional

TAA ATGSecuencia codificante

hisH

Sitio de unión a ribosoma

(RBS)

Sitio inicio de la traduccion

(ATG)

+

Uno por operón

Uno por gen

Page 5: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

MAR = Matrix attachement regions BE = Boundary elements (evita que el enhancer actúe en otro gen)

enhancer promotor

Señal Poly-A

Exon 5’ no codificante

Inicio transcripción intrones

ATG STOP

Exones internos

DNA

Transcripción, capping en 5’ y polyadenilación

Splicing (remoción de los intrones)

Traducción

PROTEÍNA

Pre-mRNA

mRNA

Exon 5’ no codificante

Page 6: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

•Muestran una distribución muy amplia de tamaños

•No hay grandes diferencias en el tamaño de los exones entre

diferentes organismos

•En general los intrones son mas largos que los exones

•La distribución de los tamaños de los intrones varía desde el mismo

largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos

•No hay una correlación entre el tamaño del gen y el tamaño de los RNAms

•No hay buena una correlación entre tamaño del gen y el número de exones

• Las secuencias de los exones son conservadas pero los intrones varían

Page 7: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Localizar los marcos abiertos de lectura ORFs, Open Reading Frames

La interpretación del resultado es más sencilla en procariotas que en eucariotas

La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes

Los ORFs comienzan con un codón Start (AUG = Met, casi siempre) Finaliza con uno de los tres codones stops (UAA, UAG, UGA).

Page 8: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

ORF FindingSe analizan todos los marcos de lectura abiertos: total 6 (inicio en cada base de un codón y en los dos sentidos).

Busca codones de iniciación (Met=AUG o codones alternativos GUG, CUG o UUG )

y terminación dentro de la secuencia (UAA, UAG, UGA).

¿Cómo detectar ORFs?

El programa permite:- Definir límite: secuencias de menos de 100 bases antes de un stop codon (33 amino acids) se excluyen. Promedio > 100 aa-Seleccionar el codon de inicio-Seleccionar el “codon usage”

Page 9: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?
Page 10: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?
Page 11: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

código genético no esta totalmente conservado

http://www.kazusa.or.jp/codon/

Page 12: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

• The genetic code - Each amino acid is coded by 3 nucleotides, named codon.• Code redundancy - Most amino acids are coded by several codons.

- 64 triplets code f or 20 amino acids & 3 stop codons.

The Genetic Code

Page 13: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://bio.lundberg.gu.se/edu/translat.html

http://www.ebi.ac.uk/Tools/emboss/transeq/index.html

http://www.expasy.ch/tools/dna.htmlExPASy (Expert Protein Analysis System)

Online Analysis Tools University of Guelph,  CANADA

EMBOSS Transeq from EBI.

DNA to Protein Translation

http://molbiol-tools.ca/Translation.htm

Page 14: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Identificar sitios dentro de un gen es una actividad que

entra dentro de lo conocido como “data mining”

1. Reconocimiento de sitios de splicing

sitios canónicos de splicing (par GT-AG)

consenso en el sitio donante AG|GTRAGT (R=A o G)

consenso en el sitio aceptor

sitios de splicing no canónicos (GC-G, etc)

2. Reconocimiento de promotores

3. Predicción de sitios poly-A

4. Predicción de sitios de terminacion de la transcricion

Page 15: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

• Los sitios de unión son muy conservados.

La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión

La secuencia de un intrón genérico se define como GT………….AG

GT-AG = 99.24%GT-AG = 99.24%

GC-AG = 0.7% GC-AG = 0.7%

AT-AC = 0.05%AT-AC = 0.05%

Splicing (en genes eucariotas)

Page 16: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Reconocer un sitio de splicing 5’

Asumimos que :

•La secuencia de ADN comienza en un exón, contiene solo un sitio de splicing 5´ y termina en un intrón.

•Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas

Exones: tienen una composición uniforme de bases , ATCG (25%) Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G.

Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)

Page 17: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Predice estructuras genéticas completas, incluyendo exones

intrones, promotores y señales de polyadenilación en

secuencias genómicas.

Permite búsquedas sobre genes incompletos y sobre

cadenas simples o dobles.

Métodos estadísticos y modelos probabilísticos para predicción de motivos en las secuencias. (modelos de Markov o HMM)

Alineamientos basados en patrones conservados encontrados en el mismo orden en distintas secuencias.

Page 18: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://genes.mit.edu/GENSCAN.html

http://spliceport.cs.umd.edu/

Page 19: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?
Page 20: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

PromotorePromotoress

TTGACA

-35 hexamero

espaciador

TATAAT

-10 hexamero

+1

intervalo 15 a 19

bases5 a 9

bases

RBS – Ribosome Binding Site (Shine-Dalgarno) conservadas aprox -15 upstream AUG. (en B. subtilis la RBS es AGGAGG)

Características de los promotores de E. coli

Page 21: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Características de los terminadores rho-independentes

Secuencia en el ADNque marca la terminación de la transcripción para la RNA polimerasa, NO CONFUNDIR con los codones terminadores de la traducción

Terminadores de la trTerminadores de la transcripciónanscripción

Stem loop energia libre debajo de -7 kcal/mol

Tallo de 5-10 pb con un mínimo de 60% GC

At least 4 U residues

Loop de 3-8 bases

5’ UUUU 3’

Page 22: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

•Señales de Transcripcion :

TATA box (~-30 TSS), CAAT box (~-75 TSS), GC box (~-90 TSS),

Señal cap,

Sitio de poli-adenilación.

Enhancers

En Eucariotas

TSS= translation start site: señal de Kozak (upstream ATG), GCC[A/G]CCaugG[not U] == óptimo [A/G]NNaugG[not U] == fuerte ; con ‘A’ a -3 mas fuerte que con ‘G’ Cualquier otra combinacion = débil Señales de Splicing

Señales de traduccion

Page 23: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://molbiol-tools.ca/Promoters.htm

Page 24: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://www.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgroup=gfindb

Page 25: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://www-bimas.cit.nih.gov/molbio/proscan/

Page 26: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://www.cbrc.jp/research/db/TFSEARCH.html

Enhancer

Page 27: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://meme.sdsc.edu/meme/

A generic approach to identify Transcription Factor-specific operator motifs; Inferences for LacI-family mediated regulation in Lactobacillus plantarum WCFS1.

Francke C, Kerkhoven R, Wels M, Siezen RJ. BMC Genomics. 2008 Mar 27;9:145.

Page 28: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

http://www.ualberta.ca/~stothard/javascript/index.html

Page 29: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Genes RNA Funcionales

• genes RNA transcriptos pero no tranducidos – no hay preferencia de codones.Cómo se predicen genes de rRNA, tRNA y small RNA?

Buscar región Promotora (no es tan especifico)

Estructura secundaria RNA es importante.Puede ser predicta usando RNA structure Prediction tools (MFOLD tool).

http://mfold.bioinfo.rpi.edu/cgi-bin/rna-form1.cgi

Page 30: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?
Page 31: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Identificar Small RNAsFunciones regulatorias

• Basados en 10 sRNA conocidos en E. coli se predicen 24 sRNAs, 14 de los cuales han sido verificados experimentalmente.

• 3 estudios posteriores identifican ~ 20 mas sRNA genes en E. coli.

Page 32: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Localizar regiones “vacias” genoma E. coli

ORF A

ORF B

ORF C

“Empty” regions

buscar promoteres reconocidos 70 RNA polimerasa

Identificar rho-independent terminators

Rescatar secuencias donde la distancia entre promotor y terminador sea 50 a 400 bases.

-35 -10

Promoter +1 Terminator

50-400 bases

TTTT

Buscar consenso en otras bacterias

-35 -10

Promoter +1

Esquema predictivoEsquema predictivo

Page 33: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

Argaman et. Al – Current Biology 2001.

Page 34: ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?