anotación genómica de la región encode enm011

25
Bioinformática: Fundamentos y Aplicaciones Proyecto fin de Postgrado – Octubre 2011 Anotación Genómica de la región ENCODE ENm011 1 ----AUTO---R----------- 5 | | | 1 FERNANDO-GARCIA-HUERTA- 20 * * * 6 ------------CO-NSU-LTOR 14 || 21 ENRIQUE-BLANCO-GARCIA-- 39 ** .: :: 15 ---TUTOR--------------- 20 | 40 ALEXANDRE-SANCHEZ-PLA-- 58 . *

Upload: fernando-garcia-huerta

Post on 25-Jul-2015

318 views

Category:

Documents


5 download

DESCRIPTION

Trabajo fin de Postgrado, consistente en la anotación genómica de la región ENCODE ENm011 y la exploración de las diferentes aplicaciones bioinformáticas utilizadas para realizarlo.

TRANSCRIPT

Page 1: Anotación Genómica de la región ENCODE ENm011

Bioinformática: Fundamentos y Aplicaciones

Proyecto fin de Postgrado – Octubre 2011

Anotación Genómica de la región

ENCODE ENm011

1 ----AUTO---R----------- 5

| | |

1 FERNANDO-GARCIA-HUERTA- 20

* * *

6 ------------CO-NSU-LTOR 14

||

21 ENRIQUE-BLANCO-GARCIA-- 39

** .: ::

15 ---TUTOR--------------- 20

|

40 ALEXANDRE-SANCHEZ-PLA-- 58

. *

Page 2: Anotación Genómica de la región ENCODE ENm011

A Enrique Blanco García, que me hizo ver que un script a tiempo es útil mil veces. A Dorcas Orengo Ferriz, que me enseño la importancia del uso correcto de los conceptos.

A Alexandre Sánchez Pla por su capacidad para ver el orden donde los demás solo vemos caos. Y sobre todo a Alejandra, por aguantar lo indecible y aportar sentido a mi vida, todos y cada uno de los días.

Page 3: Anotación Genómica de la región ENCODE ENm011

TABLA DE CONTENIDO

ESTADO DEL ARTE ................................................................................................................................................................................................................. 5

EL GEN ANTES DE ENCODE ..................................................................................................................................................................................................... 5 EL PROYECTO ENCODE ........................................................................................................................................................................................................... 6 EL GEN DESPUÉS DE ENCODE .................................................................................................................................................................................................. 6 ENCODE DESPUÉS DE ENCODE .............................................................................................................................................................................................. 7

ENCODE y modENCODE..................................................................................................................................................................................................... 7 Una nueva forma de investigar .............................................................................................................................................................................................. 7

Open Source ...................................................................................................................................................................................................................... 7 Redes sociales.................................................................................................................................................................................................................... 7

ANOTACIÓN COMPUTACIONAL ......................................................................................................................................................................................... 9

EXTRACCIÓN DE LA SECUENCIA ENM011 ................................................................................................................................................................................. 9 PREDICCIÓN AB INITIO................................................................................................................................................................................................................ 9

Geneid ................................................................................................................................................................................................................................... 9 Genscan ................................................................................................................................................................................................................................. 9 Fgenesh ............................................................................................................................................................................................................................... 10 Un primer vistazo ................................................................................................................................................................................................................ 10

BÚSQUEDA DE PROTEÍNAS CONOCIDAS EN NUESTRA SECUENCIA CON BLAST ...................................................................................................................... 11 Metodología ........................................................................................................................................................................................................................ 11 Parámetros .......................................................................................................................................................................................................................... 11 Resultados ........................................................................................................................................................................................................................... 12

LA PREDICCIÓN ....................................................................................................................................................................................................................... 12 Preparación de las pistas .................................................................................................................................................................................................... 12 Intersecciones ...................................................................................................................................................................................................................... 12

Selección de los exones comunes a las tres predicciones................................................................................................................................................. 13 Homología, incorporación de la pista blastx .................................................................................................................................................................... 13

Predicción final ................................................................................................................................................................................................................... 13 EXPLORACIÓN DE OTRAS PREDICCIONES ................................................................................................................................................................................. 13

SGP Gene Predictions Using Mouse/Human Homology ..................................................................................................................................................... 13 N-SCAN Gene Predictions .............................................................................................................................................................................................. 14 Comparativa .................................................................................................................................................................................................................... 14

ANOTACIÓN ENCODE .......................................................................................................................................................................................................... 15

EXPLORACIÓN DE LAS ANOTACIONES DE REFSEQ Y GENCODE .............................................................................................................................................. 15 RefSeq .................................................................................................................................................................................................................................. 15 Gencode............................................................................................................................................................................................................................... 15

ANOTACIÓN FUNCIONAL (GENE ONTOLOGY) ......................................................................................................................................................................... 15 Enriquecimiento de funciones.............................................................................................................................................................................................. 16

EVALUACIÓN DE LAS PREDICCIONES ....................................................................................................................................................................................... 17 GEN_1 - Mezcla de AC068580.3 y CTSD ........................................................................................................................................................................... 17 GEN_2 - Exón final de CTSD .............................................................................................................................................................................................. 17 GEN_5 - Variante de AC139143.1 ...................................................................................................................................................................................... 17 GEN_6 - Variante de SYT8 .................................................................................................................................................................................................. 17 GEN_7 - Variante de TNNI2 ............................................................................................................................................................................................... 18 GEN_8 - Variante de LSP1 ................................................................................................................................................................................................. 18 GEN_9 - Mezcla de LSP1 y TNNT3 ..................................................................................................................................................................................... 18 GEN_10 - Variante de TNNT3 ............................................................................................................................................................................................ 18 GEN_11 - Variante de MRPL23 .......................................................................................................................................................................................... 18 GEN_12 - Corta y sin alineamientos ................................................................................................................................................................................... 18 GEN_16 - Variante de IGF2 ............................................................................................................................................................................................... 18 GEN_18 - Variante de TH ................................................................................................................................................................................................... 18 GEN_24 - Variante de TSPAN32 ........................................................................................................................................................................................ 18 Resumen de la evaluación ................................................................................................................................................................................................... 18

CONSERVACIÓN ENTRE ESPECIES ............................................................................................................................................................................................ 18 SYT8 .................................................................................................................................................................................................................................... 19 TH ....................................................................................................................................................................................................................................... 19 TNNI2 .................................................................................................................................................................................................................................. 19

LA SUPERPISTA ENCODE REGULATION ................................................................................................................................................................................. 19 PISTA BURGE RNA-SEQ .......................................................................................................................................................................................................... 20

LSP1, TNNT3 y cáncer de mama ......................................................................................................................................................................................... 20

CONCLUSIÓN Y REFLEXIONES FINALES ....................................................................................................................................................................... 23

CONCLUSIONES ....................................................................................................................................................................................................................... 23 Sobre los resultados ............................................................................................................................................................................................................ 23 Sobre el software de predicción ab initio ............................................................................................................................................................................ 23 Sobre la anotación de genes ................................................................................................................................................................................................ 23 Sobre la sobredosis de información ..................................................................................................................................................................................... 23 Sobre el trabajo útil ............................................................................................................................................................................................................. 24

CONSIDERACIONES .................................................................................................................................................................................................................. 24 REFLEXIÓN FINAL .................................................................................................................................................................................................................... 24

REFERENCIAS Y BIBLIOGRAFÍA ...................................................................................................................................................................................... 25

Page 4: Anotación Genómica de la región ENCODE ENm011
Page 5: Anotación Genómica de la región ENCODE ENm011

ESTADO DEL ARTE

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 5 de 25

Estado del arte –––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– El genoma humano es un elegante, pero altamente complejo, sistema de información. Está formado por aproximadamente tres billones de bases que contienen, de forma codificada, las instrucciones para para sintetizar cada célula, tejido y órgano del cuerpo humano. El proyecto ENCODE

1

(Encyclopedia of DNA Elements), nace en año 2003, con el objetivo de esclarecer la estructura biológica del genoma a base de identificar y catalogar, con técnicas de alto rendimiento (high-throughput), el máximo número de elementos funcionales que en él se encuentran codificados. En Junio de 2007 se publicaron las conclusiones del primer proyecto piloto

2 , cuyos resultados no

solamente han servido para ampliar de forma notable los conocimientos sobre la estructura y funcionalidad del genoma, sino que han provocado la necesidad de una nueva redefinición del concepto de gen

3.

El gen antes de ENCODE La palabra gen deriva del Griego genesis (nacimiento), o genos (origen), y la esencia del concepto, de alguna manera expresa que:

"…determina una característica particular de un organismo y es hereditable…"

El problema radica en que una definición así de ambigua, aunque comprensible para uso cotidiano, no es suficiente para el uso científico, que necesita de expresiones que describan de forma precisa qué es un gen. A continuación veremos como el desarrollo de la técnica ha forzado a los investigadores a redefinir el concepto de gen una y otra vez para adaptarse a los nuevos descubrimientos. Fué en 1909 cuando Wilhelm Johannsen, basándose en el concepto desarrollado por Gregor Mendel, en el que establecía que las variaciones en los rasgos eran causadas por factores hereditarios, hiciera uso por primera vez de la palabra gen, abriendo de forma oficial la carrera que por averiguar la verdadera naturaleza de la unidad hereditaria.

"… un locus diferenciado…" En la década de 1910, Thomas Hunt Morgan y sus estudiantes explicaron la segregación de las mutaciones en la Drosophila melanogaster con un modelo de genes alineados longitudinalmente, cuya habilidad para combinarse era directamente proporcional a la distancia que los separaba.

"… plantilla para proteínas…" En 1941, Beadle and Tatum descubrieron que las mutaciones en los genes causaban defectos en las enzimas metabolizadas.

"… una molécula física…" En 1953, Watson and Crick, daban con la solución a la estructura tridimensional del ADN, que explicaba como el emparejamiento de bases podía funcionar

como mecanismo hereditario, y en 1955, Hershey y Chase, demostraron que la sustancia que realmente era transmitida por las bacterias a sus descendientes era ADN y no proteínas.

"…código transcrito…" A partir de la década de 1960 los acontecimientos ser fueron acelerando. Nirenberg y Söll descubren el código genético, que explica como los transcritos de ARN se traducen en las secuencias de aminoácidos que forman las proteínas. Pero también se puso de manifiesto que algunos genes no codificaban para proteínas, sino para algún otro subproducto celular, comenzando a acuñarse el concepto de gen como fragmento de nucleótidos que daban lugar a productos celulares funcionales.

"…patrones de secuencia de marcos abiertos de lectura (ORFs)…"

Finalmente, el desarrollo de las técnicas de secuenciación y clonado en la década de 1970, revolucionó el campo de la biología molecular proporcionando valiosa información sobre la estructuración y expresión de los genes. Paralelamente, la explosión en el campo de la computación, permitía por primera vez los análisis a gran escala, y comenzaron a producirse las primeras predicciones de genes. La identificación de la mayoría de los genes se producía por similitud con otros conocidos, o por similitud estadística entre secuencias de aminoácidos, y en muchos casos el gen quedaba efectivamente identificado como una anotación de ORFs en el genoma.

"…entidad anotada y enumerada en las bases de datos genómicas…"

Entrando en el siglo XXI, la "Human Genome Nomenclature Organization", definía el gen como "un segmento de ADN, que contribuye al fenotipo o función. En ausencia de una función demostrada, un gen puede ser caracterizado por secuencia, transcrito u homología".

GREGOR JOHANN MENDEL (20 de julio de 18221 – 6 de enero de 1884) fue un monje agustino católico y naturalista nacido en Heinzendorf, Austria que describió, por medio de los trabajos que llevó a cabo con diferentes variedades del guisante, las hoy llamadas leyes de Mendel que rigen la herencia genética. Su trabajo no fue valorado cuando lo publicó en el año 1866. Hugo de Vries, botánico neerlandés, Carl Correns y Erich von Tschermak redescubrieron por separado las leyes de Mendel en el año 1900

CÓDIGO GENÉTICO El código genético es el conjunto de reglas usadas para traducir la secuencia de ARNm a secuencia de proteína. En 1961, el experimento realizado por Francis Crick, Sydney Brenner y Leslie Barnett and Watts-Tobin demostró que el código genético era un código regido por tripletes, de forma que cada tres bases de ARNm codificaban para un aminoácido. La correspondencia de cada triplete con su aminoácido se fue dilucidando posteriormente en diversos pasos por distintos autores.

Page 6: Anotación Genómica de la región ENCODE ENm011

ESTADO DEL ARTE

6 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Ésta definición y otras producidas durante los primeros cinco años del siglo XXI, tenían el defecto de sobre enfatizar el punto de vista tradicional de los

genes que codifican proteínas, y todas ellas se enfrentaban con dificultades para englobar todo un conjunto de resultados experimentales que afectaban directa o indirectamente al concepto tradicional de gen (Tabla 1).

El proyecto ENCODE Como ya hemos comentado, el proyecto ENCODE (Encyclopedia of DNA Elements), nace con el objetivo de esclarecer la estructura biológica del genoma a base de identificar y catalogar el máximo número de elementos funcionales. En Junio de 2007 se publicaron las conclusiones del primer proyecto piloto cuyo objetivo era la anotación y análisis funcional de un 1% del genoma humano. A

continuación enumeramos algunos de sus descubrimientos más importantes: El genoma humano se transcribe profusamente,

de manera tal, que la mayoría de sus bases están asociadas con al menos un transcrito primario.

Se han identificado una gran cantidad de nuevos transcritos que no codifican para proteínas, muchos de ellos solapándose con locus pertenecientes a proteínas y otro en regiones que se pensaba no se traducían. A esta gran cantidad de transcritos, no anotados como genes en el ADN, los conocemos como TARs (transciptionally active regions).

Se han identificado nuevos sitios de inicio de transcripción (TSSs) hasta ahora no conocidos. Muchas proteínas de genes conocidos, tienen TSSs alternativos, a veces hasta 100.000 bases aguas arriba de la transcripción anotada.

El número de isoformas de genes por locus asociados a proteínas se ha incrementado en gran medida debido al incremento del alternative splicing relacionado con los descubrimientos anteriores.

La regulación se localiza de forma muy dispersa en el ADN. Las secuencias regulatorias que rodean los sitios de inicio de transcripción están distribuidas simétricamente, y no necesariamente en regiones aguas arriba.

En realidad se han obtenido suficientes evidencias de que el modelo conciso de gen puede ser demasiado simple, y que muchos elementos regulatorios residen en el primer exón, en intrones o en el cuerpo entero del gen.

El tiempo de replicación del ADN está relacionado con la estructura de la cromatina.

También se ha encontrado que una fracción significativa, alrededor del 20% de los pseudogenes, sí se transcriben, hecho que debe ser tenido en cuenta al utilizar transcritos como evidencias para localizar genes.

Elementos funcionales diferentes varían en gran medida, tanto su secuencia de individuo a individuo, como en la posibilidad de residir en el genoma con una estructura variable.

Sin embargo, muchos elementos funcionales parecen no estar sometidos a restricciones evolutivas en los mamíferos, lo que sugiere la posibilidad de la existencia de una gran reserva de elementos neutrales, bioquicamente activos, cuya única función podría ser la de servir de base para nuevos productos evolutivos.

A modo de metáfora informática, a tenor de todos estos acontecimientos, el genoma ha pasado de poder considerarse un conjunto organizado de subrutinas, para convertirse en el código fuente de un programa en código máquina muy compacto, lleno de saltos y bucles que recorren el código de un lado a otro de forma bastante confusa aunque muy efectiva.

El gen después de ENCODE Como vemos, los resultados del primer proyecto piloto ENCODE, son lo suficientemente significativos como para afectar al concepto clásico de gen, haciéndose necesaria, una vez más, una redefinición del término. La nueva definición de gen debería tener en consideración los siguientes criterios:

Tabla 1 | Extracto de la Tabla 1. Phenomena complicating the concept of the gene del artículo What is a gene, post-ENCODE? History and updated definition3

Evento Descripción

Regulación, localización y estructura Genes Intrónicos Genes localizados en intrones de otros genes

ORF superpuestos La misma región de ADN puede codificar diferentes productos dependiendo del frame de lectura

Potenciadores y silenciadores Los reguladores que afectan a la expresión de un gen pueden estar localizados muy lejos en el ADN.

Variación estructural Elementos móviles Un elemento genético puede aparecer en nuevas

posiciones con las generaciones Reordenamientos y variaciones

estructurales La estructura puede diferir entre individuos

Variación del número de copias El número de copias de un gen puede diferir entre individuos

Epigenética y estructura del cromosoma Modificaciones epigenéticas La expresión de un gen puede depender de su

origen paterno o materno, lo que implica que el fenotipo no está estrictamente determinado por el genotipo.

Efectos de la estructura de la cromatina

La expresión de un gen depende el empaquetamiento de la molécula de ADN. La secuencia de ADN no es suficiente para la predicción genética.

Eventos post-transcripcionales Empalme alternativo de ARN Se pueden obtener múltiples productos de un solo

locus. Productos empalmados

alternativamente con los marcos de lectura alternativos

Dos productos de empalme alternativo de pre-mARN producen productos sin ninguna secuencia en común.

Trans-empalme de ARN Una proteína puede ser el resultado de la combinación de múltiples transcritos.

Modificación de ARN El ARN es modificado enzimáticamente. Eventos post-traducción

Empalmes proteicos y polyproteínas virales

El comienzo y fin de una proteína no está determinado por el código genético.

Modificacion de proteinas La proteína altera su estructura y la función del producto final, lo que implica que su secuencia no es directamente la codificada en el ADN.

Pseudogenes y Retrogenes Retrogenes Genes formados a partir de la transcripción

inversa ARN => ADN Transcripción de pseudogenes Hay actividad bioquímica de elementos

supuestamente inertes.

Page 7: Anotación Genómica de la región ENCODE ENm011

ESTADO DEL ARTE

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 7 de 25

1. Ser compatible con el término clásico de gen, lo que en informática se conoce como backguard compatibility.

2. Ser independiente del organismo al que se le aplique, ya sea una bacteria o un homo sapiens.

3. Debería expresar una idea simple en vez de un largo conjunto de características.

4. Debe ser práctico, que sea útil para responder a preguntas concretas como ¿Cuántos genes tiene el genoma de una especie?

5. Debe ser compatible y consistente con la nomenclatura utilizada en la literatura biológica.

Con todos esos criterios, los autores del artículo What is a gene, post-ENCODE? History and updated definition3 proponen la siguiente definición: Un gen es la unión de un grupo de secuencias genómicas que codifican un conjunto coherente de productos funcionales potencialmente superpuestos. Para comprender mejor la definición, hay que destacar los siguientes aspectos: 1. Un gen es una secuencia genómica (ADN o ARN)

que codifica directamente productos funcionales moleculares, ya sean ARN o proteínas.

2. En caso de que variaos productos funcionales compartan regiones superpuestas, se debe coger la unión de todas las secuencias superpuestas que codifican para ellos.

3. Dicha unión debe ser coherente, es decir, especificada de forma separada para cada producto final (proteína o ARN). Nótese que esto no requiere que al menos una sub-secuencia deba ser compartida necesariamente por todos los productos.

ENCODE después de ENCODE El gran Human Genome Project4 (HGP), bajo el que podemos enmarcar el proyecto ENCODE, nació de forma oficial en 1990 con los objetivos principales de secuenciar los 3 billones de pares de bases que componen el ADN humano e identificar los entre 20.000-25.000 gene que se pensaba contenía. En 2004 se consiguió el primero de los objetivos, la obtención de una secuencia completa de referencia de alta calidad del ADN humano5 y en 2007 se finalizó la fase piloto del proyecto ENCODE2, pero a pesar de todos los éxitos cosechados en el campo de la genómica, aún estamos lejos de comprender como la información codificada en un genoma puede producir organismos complejos multicelulares. Dos hechos fundamentales que pusieron de manifiesto durante la experiencia obtenida en la fase piloto de ENCODE, uno la grandísima complejidad que encerrada todo el proceso regulatorio de expresión génica y otro, la gran cantidad de genes relacionados con productos no proteicos que aún nos quedan por descubrir.

ENCODE y modENCODE

Debido a ello, tras la finalización de la fase piloto, el proyecto se dividió en dos líneas diferenciadas de actuación. Por un lado se extendió el proyecto ENCODE a todo el genoma humano, y por otro se creó el nuevo proyecto modENCODE6, cuyo objetivo es la anotación funcional de los genomas de los organismos C elegans y D melanogaster. La elección de estos dos organismos para el proyecto modENCODE, no es casual, se trata de organismos que son pilares de la investigación biológica moderna, cuyos genomas, no excesivamente grandes (como un tercio del genoma humano), además de fáciles de cultivar y manipular, permiten la validación in vivo, de los hallazgos obtenidos, algo que raramente puede llevarse a cabo en experimentos con mamíferos. Se espera que las comunidades dedicadas al estudio de éstos organismos se beneficien rápidamente de los resultados de este proyecto, allanando el camino hacia la comprensión del mucho más complejo genoma humano, ayudando a dilucidar las relaciones existentes entre los eventos moleculares y biológicos de un organismo.

Una nueva forma de investigar

No me gustaría terminar esta introducción, sin resaltar la nueva forma de trabajo colaborativo que, gracias al desarrollo de las redes sociales por un lado y del movimiento Open Source por otro, se está imponiendo poco a poco en el campo de la investigación científica en general y la bioinformática en particular.

Open Source

Hoy en día podemos encontrar en internet, de forma gratuita, la más completas suites de software que podemos necesitar, y no solamente libres de uso, sino con disponibilidad de su código fuente o de APIs bien documentadas para que podamos integrarlos en nuestras necesidades. Programas utilizados a diario por cualquier bioinformático, como puedan ser blast7 o geneid8, solo por mencionar dos de los que utilizaremos durante el proyecto, ponen a disposición del público no solo sus códigos fuentes, sino toda la documentación necesaria para contribuir a su desarrollo.

Redes sociales

El otro factor que está contribuyendo al rapidísimo avante en bioinformática, es la pérdida del miedo a compartir, aunque sea en parte, muchos de los hallazgos obtenidos, lo que permite su inclusión en grandes bases de datos que se pueden consultar públicamente, ahorrando cantidades considerables de tiempo y dinero en investigación. Otro ejemplo del original de uso de las redes sociales, lo encontramos en el propio proyecto modENCODE. Este proyecto funciona como un consorcio9 en el que sus participantes pueden, literalmente, realizar votaciones sobre los campos del proyecto que les gustaría que se llevasen a cabo primero, consiguiendo finalmente un índice de prioridades que ha establecido la propia comunidad que se va a beneficiar de los resultados.

"Un gen es la unión de un grupo de secuencias genómicas que codifican un conjunto coherente de productos funcionales

potencialmente superpuestos"

Page 8: Anotación Genómica de la región ENCODE ENm011

ESTADO DEL ARTE

8 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Page 9: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN COMPUTACIONAL

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 9 de 25

Anotación Computacional –––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– En esta primera fase obtendremos la secuencia de ADN objeto de estudio, y utilizando técnicas de predicción ab initio con los programas Geneid, Genescan y Fgenesh, procederemos a su anotación. Durante el proceso, utilizaremos la ayuda de bases de datos de proteínas y la búsqueda de regiones otólogas en otros genomas, así como a la genómica comparativa para fundamentar mejor nuestras decisiones.

Extracción de la secuencia ENm011 Utilizando el servidor UCSC10, navegamos hasta el índice de las regiones hg18 del proyecto ENCODE11 (Figura 1), donde seleccionamos la región ENm011 (1GF2/H19), que será la secuencia objeto de nuestro estudio. Esta región se encuentra localizada en el cromosoma 11, concretamente en la localización: chr11:1,699,992-2,306,039.

Descargamos la secuencia completa de esta región utilizando el enlace Get DNA y guardamos el secuencia que viene en formato FASTA (ver adjunto ENm011.fasta).

Predicción ab initio El siguiente paso consiste en la predicción ab initio de los genes contenidos en la secuencia. Realizaremos este proceso con tres programas diferentes: Geneid12, Genscan13 y Fgenesh14.

Geneid

En el servidor público de geneid proporcionado por Genome BioInformatics Research Lab, utilizamos la versión de geneid 1.2 para obtener una primera predicción ab initio de los genes contenidos en la región ENm011. Para esta predicción hemos utilizado los siguientes parámetros:

Tabla 2 | Parámetros Geneid

Organism Homo sapiens (human) Prediction

mode Normal mode (signal, exon and gene prediction)

DNS strands Forward and Reverse Output format geneid

Como resultado obtenemos la siguiente predicción de genes:

Tabla 3 | Predicción de genes con Geneid

Gene Strand Exons aa Start End

1 - 10 569 39246 13095 2 - 1 24 41674 41603 3 - 4 149 63912 45693 4 + 1 119 70368 70724 5 - 2 292 81910 80704 6 + 9 362 86242 115246 7 + 6 210 115959 119366 8 + 11 354 130960 165378 9 - 2 486 200691 166960

10 + 11 382 204492 218910 11 + 5 154 225178 234235 12 - 3 122 320448 267546 13 - 1 53 322145 321987 14 - 1 86 333523 333266 15 - 1 114 345218 344877 16 - 7 348 417955 352069 17 - 2 111 438786 437667 18 - 11 404 449601 442048 19 + 3 211 452290 466870 20 + 6 147 496321 542410 21 - 1 194 548147 547566 22 - 1 181 552523 551981 23 - 2 73 571408 563465 24 + 6 307 580626 601769

El resultado con los exones que conforman cada gen lo guardamos en un archivo – raw_prediction_geneid.txt – para su posterior proceso.

Genscan

Repetimos el mismo proceso, esta vez en el servidor de Genscan. Es importante recordar que éste programa no interpreta la cabecera de los ficheros FASTA, por lo que debemos proporcionarle como secuencia, la cadena de ADN limpia para evitar obtener un falso desplazamiento en las coordenadas de los exones. Teniendo esto en cuenta, los parámetros utilizados y los genes obtenidos se pueden observar en las siguientes tablas:

Figura 1 | ENCODE hg18 index

Page 10: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN COMPUTACIONAL

10 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Tabla 4 | Parámetros Genscan

Organism Vertebrate Suboptimal exon cutoff 1.00

Print option Predicted peptides only

Tabla 5 | Predicción de genes con Genscan

Gene Strand Exons aa Start End

1 - 13 831 41674 13095 2 + 8 391 43059 63105 3 - 1 83 67334 67083 4 + 1 118 70368 70724 5 - 3 352 81910 80704 6 + 21 852 101649 119366 7 + 20 793 124281 165378 8 - 5 656 188065 166960 9 + 16 500 196679 214387

10 + 5 153 225178 234235 11 + 5 250 235718 241678 12 - 17 768 279273 248356 13 + 15 547 285391 314949 14 - 1 66 322187 321987 15 + 3 92 350209 354513 16 + 8 305 367386 386541 17 - 2 125 407539 399341 18 - 14 841 435679 410802 19 - 2 110 438786 437667 20 - 20 763 464175 442048 21 + 18 919 464676 514888 22 + 8 416 518207 544515 23 - 7 625 555104 546749 24 + 19 724 575504 601593 25 - 3 133 605993 602682

Guardamos la predicción en el fichero raw_prediction_genscan.txt.

Fgenesh

Y por último repetimos nuevamente el proceso con el programa fgenesh. Los parámetros que hemos utilizado son:

Tabla 6 | Parámetros Fgenesh

Organism Human

Tabla 7 | Predicción de genes con Fgenesh

Gene Strand Exons aa Start End

1 - 13 892 41674 13095 2 + 4 136 43447 46542 3 + 1 118 70368 70724 4 - 2 299 81910 80704 5 + 8 360 111687 115246 6 + 7 213 117265 119366 7 + 14 470 143104 165378 8 - 2 523 174903 166960 9 + 16 423 179558 214387

10 + 6 414 224461 234235 11 - 1 94 239050 238766 12 - 16 636 365279 239770 13 + 6 166 368077 396126 14 - 10 509 435679 410802 15 - 2 110 438786 437667 16 - 14 559 449601 442048 17 - 5 290 477465 459461 18 + 5 231 486419 514888 19 - 1 202 538801 538193 20 - 2 252 548147 546749 21 + 12 392 568402 599328

Y el resultado lo guardamos en el fichero raw_prediction_fgenesh.txt.

Un primer vistazo

Como primer paso, y simplemente para hacernos una idea de hasta qué punto coinciden cada una de las tres predicciones de novo, hemos preparado una tabla comparativa (Tabla 9) a nivel de gen, en la que destacaremos dos tipos de candidatos: candidatos fuertes (CF) y candidatos menores (CM) atendiendo al siguiente conjunto de criterios: 1. Misma cadena (+/-) – obligatorio 2. Coordenadas iniciales y finales del gen similares. 3. Número de aminoácidos parecidos. 4. Número de exones parecidos. Los candidatos fuertes conservan los criterios antes mencionados de forma muy parecida entre las predicciones de los tres programas, y por tanto tienen más probabilidades de referirse al mismo gen, mientras que los candidatos menores, conservan al menos dos de los tres criterios de selección en al menos dos de los tres programas, lo que puede deberse bien a casos de genes con empalme alternativo15 (alternative splicing), o bien a casos de división de genes (split genes). Metodología La forma en la que hemos llevado a cabo la selección ha sido la siguiente: Paso 1: Preparación de datos comparables entre sí. Hemos preparado tres pequeños scripts en Python que generan tablas con los campos: id, strand, exons, aa, start y end a partir de cada uno de los ficheros de predicción de cada uno de los programas.

Tabla 8 | Campos utilizados para la primera comparativa entre las predicciones ab initio

id Identificador de programa y número de gen strand Cadena de AND en la que se encuentra el gen exons Número de exones

aa Número de aminoácidos start Coordenada del nucleótido inicial del gen

end Coordenada del nucleótido final del gen

Paso 2: Comparación de los datos con Microsoft Excel. Hemos abierto las tablas anteriores con Microsoft Excel16 y se ha ordenado por los campos: Strand, Start y aa. y de forma manual se han seleccionado los candidatos que mejor se adaptaban a los criterios de selección. El resultado (Tabla 9) ha sido que solamente tres de los genes predichos comparten suficientes características como para hacer una apuesta inicial a falta de más datos experimentales. Mientras que hemos conseguido marcar otros diez posibles genes que posiblemente sean reforzados, o no, en las subsiguientes fases de análisis. En necesario comentar que con esta selección no se pretende excluir ninguna de las predicciones, sino obtener una primera aproximación a los datos obtenidos antes de proceder a su complementación con datos procedentes de proteínas conocidas.

PYTHON* AL RESCATE Aunque hay otros lenguajes de script que se han utilizado de forma tradicional para la preparación de datos bioinformáticos, como pueden ser Perl o incluso la propia Bash de Linux, creo que dichos lenguajes son algo confusos para el usuario medio, no experto en informática, y poco a poco irán siendo sustituidos por lenguajes algo más amigables y no tan exclusivos para experto informático. Uno de estos lenguajes, que está adquiriendo un gran auge actualmente, y no solo en el ámbito de la bioinformática, es Python, que será el que utilizaremos para preparar los scripts de éste proyecto.

NORMALIZACIÓN Al realizar la predicción de genes, cada programa, Geneid, Genscan y Fgenesh tiene su propio formato de salida. Hemos realizado un pequeño script en Python que extrae de cada fichero las campos que necesitamos para comparar las predicciones entre sí y genera las tablas de Genes que podemos ver en la Tabla 3, la Tabla 5 y la Tabla 7.

Page 11: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN COMPUTACIONAL

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 11 de 25

Tabla 9 | Extracto de la tabla de selección de genes candidatos. Se puede consultar la tabla completa en el documento adjunto predicciones_ab_initio.xls.

Id Strand Exons aa Start End

geneid_4 + 1 119 70368 70724 CF1

genscan_4 + 1 118 70368 70724 CF1

fgenesh_3 + 1 118 70368 70724 CF1

geneid_6 + 9 362 86242 115246 CM1

fgenesh_5 + 8 360 111687 115246 CM1

geneid_7 + 6 210 115959 119366 CM2

fgenesh_6 + 7 213 117265 119366 CM2

fgenesh_9 + 16 423 179558 214387 CM3

genscan_9 + 16 500 196679 214387 CM3

geneid_11 + 5 154 225178 234235 CM4

genscan_10 + 5 153 225178 234235 CM4

genscan_1 - 13 831 41674 13095 CM5

fgenesh_1 - 13 892 41674 13095 CM5

geneid_5 - 2 292 81910 80704 CF2

genscan_5 - 3 352 81910 80704 CF2

fgenesh_4 - 2 299 81910 80704 CF2

fgenesh_8 - 2 523 174903 166960 CM6

genscan_8 - 5 656 188065 166960 CM6

geneid_9 - 2 486 200691 166960 CM6

geneid_13 - 1 53 322145 321987 CM7

genscan_14 - 1 66 322187 321987 CM7

genscan_18 - 14 841 435679 410802 CM8

fgenesh_14 - 10 509 435679 410802 CM8

geneid_17 - 2 111 438786 437667 CF3

genscan_19 - 2 110 438786 437667 CF3

fgenesh_15 - 2 110 438786 437667 CF3

geneid_18 - 11 404 449601 442048 CM9

fgenesh_16 - 14 559 449601 442048 CM9

geneid_21 - 1 194 548147 547566 CM10

fgenesh_20 - 2 252 548147 546749 CM10

Búsqueda de proteínas conocidas en nuestra secuencia con BLAST Una forma de reforzar nuestras predicciones, consiste en la búsqueda de proteínas conocidas, de la misma especie o cercanas, en nuestra secuencia17. Tenemos dos formas principales de afrontar esta tarea. Una comparar nuestra secuencia de ADN con otras secuencias de ADN en la base de datos de NCBI (blastn). Y otra, intentar una comparación entre las posibles cadenas de aminoácidos codificadas en nuestra secuencia y las secuencias de aminoácidos de proteínas conocidas (blastx18). Para éste trabajo nos hemos decantado por la segunda opción (blastx) por los siguientes motivos: 1. Como biólogos, nos gustaría saber todo lo que sea

posible sobre la función de los genes que predecimos, de forma que la secuencia de la proteína de nuestro gen, caso de no estar aún anotada, podría ser similar a proteínas de otros

organismos cercanos en los que sí estuviera anotada, y por tanto podríamos inferir mucha información a partir de ella.

2. Debido a la degeneración del código genético, es muy posible encontrar dos proteínas con cadenas muy similares de aminoácidos, pero muy diferentes secuencias de ADN, en cuyo caso blastn no arrojaría ningún resultado remarcable.

Para que la búsqueda se realice entre cadenas de proteínas, recordemos que nuestra secuencia debe ser traducida en cada uno de los seis marcos de lectura posible antes de la comparación, lo que convierte el trabajo de blastx en una tarea mucho más compleja y lenta de lo que sería para blastn.

Metodología

La principal dificultad con la que nos hemos encontrado es que la larga longitud (606.048 bases) de nuestra secuencia, no permite utilizarla directamente como query en los servidores públicos de blastx. Cualquier intento de alinear cadenas de gran tamaño termina irremediablemente por producir un error debido a uso excesivo de CPU. Una forma de solucionarlo es la instalación y ejecución en un equipo local del paquete de programas Blast19. Su instalación no supone dificultad alguna y existen versiones disponibles para prácticamente cualquier sistema operativo actual. Pero lo que sí que supone un problema es la descarga de las bases de datos necesarias para su funcionamiento, que pueden superar fácilmente los 40Gb de información, tamaño no excesivamente grande para un uso profesional, pero si algo prohibitivo si se dispone de una conexión relativamente lenta a internet. Por tanto, la solución que se ha adoptado para obtener los alineamientos, es aprovechar los parámetros to y from, del servidor público, para procesar cada vez una porción de la cadena, concretamente una décima parte de ella. Ésta decisión no está exenta de efectos secundarios, puesto que en los puntos de corte se puede llegar a perder la continuidad de algunos exones y por tanto no aparecer significados en los alineamientos finales, pero como veremos a continuación, ajustando algunos parámetros de blastx hemos obtenidos suficientes secuencias para aportar las evidencias necesarias a nuestras predicciones.

Parámetros

De entre los parámetros seleccionados, cabe destacar los siguientes: 1. Database.- Se ha seleccionado la base de datos de

proteínas más completa, la nr20, que está compuesta por las secuencias no redundantes de las proteínas documentadas en GenPept, Swissport, PIR, PDF, PDB y NCBI RefSeq.

2. Organism.- Se ha limitado la búsqueda a especies cercanas al Homo Sapiens, concretamente al grupo de los primates, que incluye bases de datos de las siguientes especies: Callithrix jacchus, Homo sapiens, Macaca mulatta, Nomascus leucogenys, Pan troglodytes y Pongo abelii.

3. Exclusions.- Puesto que nuestro objetivo es la búsqueda de evidencias experimentales, he decidido excluir de los resultados los Modelos XM/XP y las secuencias de ejemplo (Uncultured/environmental).

Page 12: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN COMPUTACIONAL

12 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

4. Max target sequences.- Se ha establecido el límite en 50. A la par que aceleraba la ejecución de cada proceso, puesto que se han ejecutado 10 ejecuciones de blastx, esto generará suficientes alineamientos para apoyar las hipótesis de nuestras predicciones.

5. Filter Low-complexity disabled21.- Tras una pequeña fase inicial de ensayo y error con pequeñas muestras, he detectado que dejar este filtro activo limitaba de forma considerable el número de resultados obtenidos.

Resultados

Los ficheros resultantes de cada una de las ejecuciones se han guardado de forma conjunta en una carpeta, añadiéndoles un subíndice numerado del 01 al 10. Dichos ficheros contienen tanto los alineamientos completos de cada una de las coincidencias en formatos TXT, XML y CSV, como las estrategias utilizadas para encontrar cada uno de ellos en formato ASN. En total hemos recolectado más de 1400 alineamientos pertenecientes a unas 52 anotaciones

diferentes de genomas del grupo de los Primates incluyendo la propia especie Homo Sapiens.

La predicción Una vez que hemos recopilado las evidencias experimentales, tenemos que cruzarlas con las predicciones obtenidas ab initio. La forma de hacerlo será crear intersecciones entre cajas de exones, de forma que los exones predichos que compartan algún porcentaje de secuencia en común con algún exón de las evidencias experimentales pasarán el corte. Finalmente, los genes que hayan sobrevivido a dichas intersecciones serán los que compongan la predicción final.

Preparación de las pistas

La herramienta que nos permite realizar este proceso es el Table Browser22 de UCSC. Para poder utilizar ésta herramienta, lo primero que debemos hacer es preparar un fichero en formato GFF23 que contenga la descripción de las cuatro pistas que vamos a utilizar como dato, una para cada una de las predicciones y otra para las evidencias. Una vez más, necesitaremos preparar un pequeño script (predictions2gff.py) que lea los datos en cada uno de los formatos de origen y los guarde en el formato que necesitamos, y de nuevo lo haremos en Python, un lenguaje fácil de aprender pero no por ello carente de potencia. En los ficheros GFF generados, hemos incluido algunas sentencias para que el browser se situe directamente en la posición que nos interesa, además de hacer uso de la opción de offset de los tracks para evitar tener que recalcular la posición de inicio y fin de cada exón. Para la pista con las evidencias experimentales, primero hemos concatenado todos los ficheros hittable*.csv en uno solo, y hemos preparado otro script (hittable2gff.py) que construye el fichero GFF con la pista de los datos obtenidos con blastx. Una vez obtenidos los ficheros con las pistas, las subimos como Custom Tracks24(Figura 2) al Genome Browser de UCSC, y a partir de este momento estarán disponibles tanto para las operaciones de intersección de cajas anteriormente mencionadas, como para su visualización en el browser como una pista más.

Intersecciones

Realizaremos la selección de los mejores genes candidatos de la siguiente forma:

Figura 2 | Detalle de las predicciones de geneid, fgenesh, genscan y las evicencias obtenidas con blastx representadas en el Genome Browser como custom tracks

Tabla 10 | Lista completa de la Parametrización utilizada en blastx para la obtención de evidencias experimentales en la secuencia de estudio

Query Secuencia ENm011 en formato fasta. From 1, 60606, 121210, 181814, 242418, 303022, 363626,

424230, 484834, 545438 (respectivamente en cada una de las 10 ejecuciones)

To 60605, 121209, 181813, 242417, 303021, 363625, 424229 484833, 545437, 606048 (respectivamente en cada una de las 10 ejecuciones)

Job Title ENm011 Fragmento n_de_10 - Primates - Not Models - Not Uncultured (sustituyendo n por los números del 1 al 10 en cada ejecución respectivamente)

Database Non-redundant protein sequences (nr) Organism Primates (taxid:9443)

Exclude Models (XM/XP) and Uncultured/environmental sample sequences: checked

Max target sequences 50 Expect threshold 10

Word size 3 Max matches in a query

range 0

Matrix BLOSUM62 Gap Costs Existence: 11 Extension: 1

Filter Filter low complexity regions: unchecked Mask Mask for lookup table only: unchecked

Mask lower case letters: unchecked

Page 13: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN COMPUTACIONAL

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 13 de 25

Selección de los exones comunes a las tres predicciones

La herramienta Table browser no permite la intersección de tres pistas simultáneamente, así que debemos realizar esta operación en dos pasos. Primero cruzamos la pista geneid con la pista fgenesh, especificando como formato de salida custom track y seleccionando que solamente queremos los exones. La pista resultado de esta operación, la cruzamos con la pista genscan, obteniendo como resultado, el conjunto de 77 exones comunes a las tres predicciones (ver adjunto geneid_fgenesh_genscan_exons.txt). A partir de este fichero, reconstruimos de nuevo la predicción de genes, de forma que ahora, los genes solo contienen exones comunes a las tres predicciones (ver adjunto common_prediction.txt).

Homología, incorporación de la pista blastx

Hacemos ahora la intersección de la pista common prediction con la pista de evidencias experimentales blastx. El efecto de esta operación, será la eliminación de la predicción de todos aquellos genes que no contengan al menos un exón que interseque con las evidencias

experimentales.

Predicción final

Y de esta forma hemos obtenido la pista final prediction (ver adjunto final_prediction.txt) El resultado ha sido una predicción de 13 genes (Figura 3), que evaluaremos en el siguiente bloque.

Exploración de otras predicciones Otros organismos han realizado ya predicciones sobre el genoma humano utilizando diferentes técnicas y aplicaciones, incorporando sus resultados como pistas al UCSC Genome Brownser. Dos de ellos son SGP program, desarrollado en el Genome Bioinformatics Laboratory25 (GBL) y N-SCAN, realizado por el Computational Genomics Lab de la Universidad de St. Louis, MO, USA.

SGP Gene Predictions Using Mouse/Human Homology

Como hemos comentado, esta pista muestra las predicciones hechas por el programa SGP, desarrollado por el GBL, que es parte del grupo Research Programme on Biomedical Informatics26 (GRIB) en el Instituto Municipal de Investigación

Figura 3 | Comparativa de nuestra predicción final, con SGP Gene Predictions Using Mouse/Human Homology y N-SCAN Gene Predictions

Page 14: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN COMPUTACIONAL

14 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Médica (IMIM) / Centro de Regulación Genómica (CGR) de Barcelona. Para la predicción de genes en una secuencia, SGP combina las predicciones ab initio de la aplicación geneid, con comparaciones obtenidas con tblastx sobre otras secuencias genómicas. Ésta metodología resulta ser muy parecida a la que se ha llevado a cabo en este proyecto, sin embargo podríamos destacar dos hechos diferenciales: 1. En este proyecto, se han tenido en cuenta

predicciones ab initio de tres aplicaciones (geneid, fgenesh y genscan) en vez de solo la generada por geneid.

2. En nuestro proyecto, la búsqueda de secuencias se realizó con blastx y sobre el grupo completo de los primates, mientras que el SGP se utilizó tblastx y basándose en homologías sobre el genoma del ratón.

N-SCAN Gene Predictions

Ésta pista muestra la predicción obtenida por el Computational Genomics Lab con el software de predicción de estructura génica N-SCAN. N-SCAN es una evolución de TWINSCAN27, que era un programa que combinaba blastn para la comparación de secuencias y Genscan para la predicción de genes.

N-SCAN combina el modelado de señales biológicas en la secuencia genómica objetivo junto con información obtenida de un alineamiento en múltiples genomas para generar predicciones de novo.

Comparativa

Como podemos observar en la Figura 3, a excepción de los genes GEN_1, GEN_9 y GEN_24, nuestra predicción contiene genes mucho mas cortos que las otras dos pistas de predicciones. Esto podría ser un indicativo de que hemos sido demasiado estrictos al forzar que cada exón deba ser predicho por los tres programas de forma simultánea. Se podría relajar la condición, conservando los exones que coincidan en dos de los tres programas, pero el efecto podría ser la obtención de demasiados falsos positivos. Nos encontramos ante la coyuntura de, bien relajar las condiciones y correr el riesgo de predecir demasiados genes, o bien, tal y como hemos hecho, imponer unas condiciones muy estrictas y correr el riesgo de perder algún gen, o parte de él en la predicción. Nosotros hemos optado por la segunda opción. Veremos en el siguiente bloque, si la decisión ha sido correcta.

Page 15: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 15 de 25

Anotación ENCODE Estudio de la región ENCODE ENm011 con el objetivo de validar la calidad de las predicciones obtenidas. Realizaremos un estudio inicial de las anotaciones hechas por los organismos RefSeq y GENCODE, realizando una pequeña investigación ontológica, en busca de clústeres funcionales antes de pasar a una evaluación de las predicciones obtenidas. Posteriormente realizaremos un estudio comparativo de los genes SIT8, TH y TNNI2, contenidos en la secuencia de estudio, en tres especies diferentes, humano, ratón y gallina, para comprobar su conservación en el marco evolutivo. Y Finalmente, exploraremos las pistas ENCODE regulation y RNA-seq, como ejemplo la gran cantidad de anotaciones no proteicas que el proyecto ENCODE ha sacado a la luz, y de otras formas de análisis de la expresión proteica.

Exploración de las anotaciones de RefSeq y Gencode Antes de proceder a la evaluación de nuestra predicción, vamos a realizar un estudio de los genes ya anotados tanto por RefSeq como por Gencode.

RefSeq

The Refefence Sequence28 (RefSeq) es una fundación que proporciona una referencia estable tanto para la anotación del genoma, como para identificación y caracterización de genes, manteniendo una colección de anotaciones integra, comprensiva y no redundante de conjuntos de secuencias, incluyendo ADN, transcritos y proteínas. Para obtener el conjunto de genes anotados por RefSeq, tan solo tenemos que mostrar la pista en el UCSC Genome Browser, posicionándonos en las coordenadas de nuestra región de estudio (ENm011: chr11:1,699,992-2,306,039), obteniendo una imagen de dichos genes.

Para recuperar, el listado de genes anotados, vamos a hacer uso de una posibilidad muy interesante que nos permite el Table Browser. Se trata de la posibilidad de conectarnos directamente a las bases de datos de UCSC vía MySQL29 y ejecutar nuestra propia consulta directamente30.

Para recuperar los nombres de los genes que necesitamos, debemos seleccionar la base de datos hg18, y hacer la correspondiente consulta sobre la tabla refGene31(Figura 4).

Con lo que obtenemos el siguiente listado de genes anotados por refSeq (ver adjunto enm011_refseq.txt), que posteriormente utilizaremos para localizar clústeres funcionales: Genes anotados por RefSeq: MRPL23-AS1, LSP1, CTSD, IFITM10, SYT8, TNNI2, TNNT3, MRPL23, MIR4298, H19, MIR675, TH, IGF2-AS, IGF2, MIR4686, INS, INS-IGF2, MIR483, C11orf21, ASCL2, TSPAN32.

Gencode

Procedemos de forma análoga para obtener los genes anotados por GENCODE, y al mostrar la pista correspondiente, observamos que en realidad se activan dos pistas, una correspondiente a la anotación manual, y otra correspondiente a la anotación automática. La tabla que contiene la anotación automática es wgEncodeGencodeAutoV3 y la tabla con la anotación manual wgEncodeGencodeManualV3. Realizamos la consulta SQL (Figura 4) y obtenemos los siguientes listados (ver adjuntos enm011_encode_auto.txt y enm011_encode_manual.txt). Genes anotados por Gencode (Anotación Automática): LSP1, CTSD, , AC139143.1, SYT8, TNNI2, C11orf89, TNNT3, MRPL23, H19, hsa-mir-675, AC123789.1, IGF2, hsa-mir-483, INS, TH, C11orf21, TSPAN32, U6 Genes anotados por Gencode (Anotación Manual): LSP1, AC051649.5, AC068580.3, CTSD, AC068580.2, AC068580.4, AC068580.1, AC139143.2, AC139143.1, SYT8, TNNI2, AC051649.3, C11orf89, AC051649.4, TNNT3, MRPL23, AC051649.2, H19, IGF2, AC132217.2, INS, IGF2AS, TH, ASCL2, C11orf21, TSPAN32.

Anotación funcional (Gene Ontology) El proyecto Ontología Génica32 (GO), proporciona un una codificación estándar para describir el gen y los atributos del producto génico en cualquier organismo.

Figura 4 | Líneas de comando de linux que ejecutan consultas SQL directamente sobre las bases de datos de UCSC.

$ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e

"SELECT DISTINCT name2 FROM refGene WHERE chrom='chr11' AND

txStart>=1699992 AND txEnd<=2306039;" -D hg18 >

enm011_refseq.txt

$ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e

"SELECT DISTINCT name2 FROM wgEncodeGencodeAutoV3 WHERE

chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18

> enm011_encode_auto.txt

$ mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A -B -e

"SELECT DISTINCT name2 FROM wgEncodeGencodeManualV3 WHERE

chrom='chr11' AND txStart>=1699992 AND txEnd<=2306039;" -D hg18

> enm011_encode_manual.txt

Page 16: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

16 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Para encontrar las funciones con las que están relacionados los genes anotados, haremos uso de la búsqueda avanzada del servidor AmiGO33. Como query utilizaremos los tres ficheros obtenidos en el apartado anterior, establecemos como tipo de búsqueda Genes or proteins, y como filtro de resultados establecemos las opciones que

detallamos en la Tabla 12. El propio servidor de AmiGO, nos permite seleccionar los 41 resultados obtenidos y exportarlos en un fichero tabulado de asociación de genes fácilmente manipulable (ver adjunto enm011_amigo.txt). Podemos ver una representación de los datos obtenidos en la Tabla 11, donde comprobamos que solo se han encontrado anotaciones funcionales para 13 de los genes.

Tabla 12 | Parametros utilizados en el servidor amiGO para la obtención de los códigos GO asociados a cada gen anotado de la región ENm011

Query enm011_refseq.txt + enm011_gencode_auto.txt + enm011_gencode_manual.txt

Match the query phrase(s) exactly

Checked

Search Type Genes or proteins Search fields all fields Filter by Ontology molecular function Gene Product Type All Data source All Species Homo Sapiens Evidence Code All

Enriquecimiento de funciones

En ocasiones, los genes se presentan en clústeres34, es decir, genes que aparecen en el genoma con una cierta agrupación o formación, desempeñan funciones biológicas similares. Podemos comprobar si los genes de nuestra región presentan este tipo de agrupaciones, con ayuda de la aplicación DAVID35. La forma de interaccionar con DAVID es muy similar a la del resto de aplicaciones bioinformáticas con las que hemos trabajado hasta ahora, simplemente se rellenan los campos de un formulario web con los parámetros requeridos:

Gene List enm011_refseq.txt + enm011_gencode_auto.txt + enm011_gencode_manual.txt

Identifier OFFICIAL_GENE_SYMBOL List Type Gene List Specie Homo sapiens

De la lista de conjunta de genes, DAVID reconoce correctamente 16 IDs, y no consigue mapear 19.

Tabla 13 | Listado de genes de la región ENm011 mapeados y no mapeados por la aplicación DAVID.

MAPPED UNMAPPED

CTSD AC132217.2 ASCL2 MRPL23-AS1

C11orf89 AC051649.3 TH AC068580.4

SYT8 hsa-mir-675 TSPAN32 hsa-mir-483

LSP1 AC068580.3 C11orf21 AC051649.4

TNNT3 AC139143.1 INS-IGF2 MIR4686

IGF2 AC051649.2 INS AC068580.2

Tabla 11 | Asociación funcional de las proteinas de la región ENm011.

Protein GO Annotation

ASCL2 Achaete-scute homolog 2

GO:0003700 : sequence-specific DNA binding transcription factor activity GO:0070888 : E-box binding GO:0043565 : sequence-specific DNA binding

CTSD Cathepsin D

GO:0004190 : aspartic-type endopeptidase activity

IGF2 Insulin-like growth factor II

GO:0030546 : receptor activator activity GO:0008083 : growth factor activity GO:0005179 : hormone activity GO:0005515 : protein binding GO:0005158 : insulin receptor binding GO:0043539 : protein serine/threonine kinase activator activity GO:0005159 : insulin-like growth factor receptor binding

INS Insulin A chain

GO:0005179 : hormone activity

INS Insulin

GO:0005179 : hormone activity GO:0005515 : protein binding GO:0005158 : insulin receptor binding GO:0005159 : insulin-like growth factor receptor binding

INS-IGF2 Protein INS-IGF2

GO:0005179 : hormone activity

LSP1 Lymphocyte-specific protein 1

GO:0004871 : signal transducer activityGO:0003779 : actin binding

MRPL23 39S ribosomal protein L23, mitochondrial

GO:0003735 : structural constituent of ribosome GO:0003723 : RNA binding GO:0000166 : nucleotide binding

SYT8 Synaptotagmin-8

GO:0048306 : calcium-dependent protein binding GO:0005215 : transporter activity

TH Tyrosine 3-monooxygenase

GO:0016597 : amino acid binding GO:0004511 : tyrosine 3-monooxygenase activity GO:0005515 : protein binding GO:0034617 : tetrahydrobiopterin binding GO:0035240 : dopamine binding GO:0008199 : ferric iron binding GO:0016714 : oxidoreductase activity, acting on paired donors, with incorporation or reduction of molecular oxygen, reduced pteridine as one donor, and incorporation of one atom of oxygen GO:0008198 : ferrous iron binding GO:0005506 : iron ion binding GO:0019825 : oxygen binding GO:0019904 : protein domain specific binding

TNNI2 Troponin I, fast skeletal muscle

GO:0005515 : protein binding GO:0031014 : troponin T binding GO:0003779 : actin binding

TNNT3 Troponin T, fast skeletal muscle

GO:0048306 : calcium-dependent protein binding GO:0030899 : calcium-dependent ATPase activity GO:0030172 : troponin C binding GO:0005523 : tropomyosin binding GO:0003779 : actin bindingGO:0031013 : troponin I binding

TSPAN32 Tetraspanin-32

GO:0003674 : molecular_function

Page 17: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 17 de 25

MIR675 AC123789.1 H19 AC068580.1

MRPL23 IGF2-AS TNNI2 MIR4298 IGF2AS IFITM10 MIR483 AC139143.2

AC051649.5

Tras una serie de ensayos con los parámetros que controlan que las anotaciones que deben ser tenidas en cuenta para formar clústeres, comprobamos que los mejores resultados se obtienen para los parámetros por defecto. DAVID reconoce tres clusters, de los cuales, solo los dos representados en la Tabla 15, muestran un Enrichment Score superior a 1.0. De nuevo, disponemos del fichero en formato tabulado (ver adjunto enm011_david_clusters.txt)

para cualquier tipo de proceso computerizado.

Evaluación de las predicciones Para poder evaluar las predicciones, lo primero que vamos a hacer, es tratar de identificar si alguno de nuestros genes se corresponde con alguna anotación real. De esa forma sabremos que genes debemos comparar entre sí. Activamos las pistas ENCODE (manual y automática) y RefSeq del Genome Browser junto con nuestra pista final de predicciones y obtenemos las relaciones especificadas en la Table 16, obtenidas atendiendo a la región del genoma en la que están anotadas:

Tabla 16 | Relación Genes predichos - Genes anotados. Las líneas con fondo rosa corresponden a genes cuya predicción se puede considerar incorrecta, mientras que las líneas con fondo verde corresponden a genes cuya predicción coincide en con genes anotados.

gen position annotated genes

GEN_1 chr11:1,713,085-1,739,237

AC068580.3, CTSD, MOB2, IFITM10

GEN_2 chr11:1,741,593-1,741,665

MOB2, CTSD

GEN_5 chr11:1,780,694-1,781,901

AC139143.1

GEN_6 chr11:1,813,198-1,815,237

SYT8

GEN_7 chr11:1,818,208-1,819,357

TNNI2

GEN_8 chr11:1,857,892-1,865,369

LSP1

GEN_9 chr11:1,866,950-1,900,682

LSP1, C11orf89, TNNT3

GEN_10 chr11:1,906,873-1,912,725

TNNT3

GEN_11 chr11:1,925,168-1,934,226

MRPL23

GEN_12 chr11:1,967,536-1,967,583

AC051649.5, MRPL23-AS1

GEN_16 chr11:2,110,796-2,117,946

IGF2, INS, hsa-mir-483,INS-IGF2

GEN_18 chr11:2,142,038-2,149,592

TH

GEN_24 chr11:2,280,616-2,301,760

TSPAN32

GEN_1 - Mezcla de AC068580.3 y CTSD

El GEN_1 no parece una predicción correcta. Se trata de un gen que comparte los últimos exones de los genes que le preceden (AC068580.3, MOB2 y IFITM10) con los primeros exones del siguiente gen anotado (CTSD). Ver adjunto GEN_1-AC068580.3_CTSD_MOB2_IFITM10.pdf) Podría haberse tratado de la predicción del gen MOB2, pero ha dado la casualidad de que dicho gen está cortado en la secuencia ENm011, y por tanto no era posible su predicción completa.

GEN_2 - Exón final de CTSD

Aunque en nuestra predicción, este corto gen aparece como independiente, solo encontramos alineamientos coincidentes, con el exón inicial de CTSD. Ver adjunto GEN_2-CTSD_MOB2.pdf

GEN_5 - Variante de AC139143.1

El gen 5 coincide en posición de forma bastante exacta con el anotado por encode AC139143.1. Hemos seleccionado la variante anotada con el Vega Transcript: OTTHUMT00000105391 (36) para comprobar su alineamiento a nivel de nucleótido. Ver adjunto GEN_5-AC139143.1.pdf y el fichero de alineamiento GEN_5-AC139143.1.clustalw.

GEN_6 - Variante de SYT8

Todos los exones del gen 6 coinciden con exones del gen SYST8 de alguna de sus variantes. El mayor parecido lo tiene con la variante anotada con el Vega Transcript: OTTHUMT00000320502 (37). Ver adjunto GEN_6-SYT8.pdf y el fichero de alineamiento GEN_6-SYT8.clustalw.

Tabla 14 | Functional Annotation Clustering 1 – Classification Stringency: Medium – Enrichment Score: 1.29

GO:0016023 cytoplasmic membrane-bounded vesicle

GO:0031988 membrane-bounded vesicle

GO:0031410 cytoplasmic vesicle

GO:0031982 vesicle

TH

SY

T

CT

S

Tabla 15 | Functional Annotation Clustering 2 – Classification Stringency: Medium – Enrichment Score: 1.24

GO:0015629 actin cytoskeleton

GO:0003779 actin binding

GO:0008092 cytoskeletal protein binding

GO:0005856 cytoskeleton

GO:0043228 non-membrane-bounded organelle

GO:0043232 intracellular non-membrane-bounded organelle

TN

NT

3

LS

P1

TN

NI2

MR

PL

23

Page 18: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

18 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

GEN_7 - Variante de TNNI2

Todos los exones del gen 7 coinciden con los del gen TNNI2, El mayor parecido lo tiene con la variante anotada con el Vega Transcript: OTTHUMT00000034048 (38). Ver adjunto GEN_7-TNNI2.pdf y el fichero de alineamiento GEN_7-TNNI2.clustalw.

GEN_8 - Variante de LSP1

Todos los exones del gen 8 coinciden con exones de la proteína LSP1, aunque parece en esta predicción hemos perdido el exón inicial. La variante de LSP1 que se parece más a nuestra proteína es la Vega Transcript: OTTHUMT00000142916 (39). Ver adjunto GEN_8-LSP1.pdf y el fichero de alineamiento GEN_8-LSP1.clustalw.

GEN_9 - Mezcla de LSP1 y TNNT3

El gen 9 vuelve a ser una mezcla de exones de diferentes proteínas, y parece contener exones terminales de LSP1 y exones iniciales de TNNT3. Ver adjunto GEN_9-LSP1_C11orf89_TNNT3.pdf.

GEN_10 - Variante de TNNT3

Este gen contiene los exones centrales de la proteína TNNT3. Parece que se va confirmando la hipótesis de que nuestros criterios de selección de exones fueron demasiado restrictivos. Para realizar un alineamiento, hemos seleccionado la variante anotada con el Vega Transcript: OTTHUMT00000034756 (40). Ver adjunto GEN_10-TNNT3.pdf y el fichero de alineamiento GEN_10-TNNT3.clustalw.

GEN_11 - Variante de MRPL23

Los exones del gen 11 coinciden de manera bastante exacta con uno de los genes anotados, el MRPL23. Realizaremos el alineamiento con la variante anotada con el Vega Transcript: OTTHUMT00000034765 (41). Ver adjunto GEN_11-MRPL23.pdf y el fichero de alineamiento GEN_11-MRPL23.clustalw.

GEN_12 - Corta y sin alineamientos

El gen 12 está compuesto de un solo exón, que además queda alineado únicamente con intrones de las anotaciones AC051649.5 Y MRPL23-AS1. Ver adjunto GEN_12-AC051649.5_MRPL23-AS1.pdf.

GEN_16 - Variante de IGF2

Los exones de este gen coinciden con los anotados para el IGF2. Para realizar el alineamiento, hemos seleccionado la variante anotada con el Vega Transcript: OTTHUMT00000026386 (42). Ver adjunto GEN_16-IGF2_INS_hsa-mir-483_INS-IGF2.pdf y el fichero de alineamiento GEN_16-IGF2_INS_hsa-mir-483_INS-IGF2.clustalw

GEN_18 - Variante de TH

Tenemos una coincidencia entre todos los exones del gen 18 y algunas de las variantes del anotado TH. El alineamiento lo hemos realizado con la variante anotada con el Vega Transcript: OTTHUMT00000026397 (43). Ver adjunto GEN_18-TH.pdf y el fichero de alineamiento GEN_18-TH.clustalw.

GEN_24 - Variante de TSPAN32

Éste último gen coincide con las variantes anotada del TSPAN32. Para el alineamiento hemos escogido el Vega Transcript: OTTHUMT00000026912 (44). Ver adjunto GEN_24-TSPAN32.pdf y el fichero de alineamiento GEN_24-TSPAN32.clustalw.

Resumen de la evaluación

Tras repasar el resultado del análisis gen por gen de la predicción, el resumen es que 9 de los 13 genes predichos conservan suficiente parecido con genes anotados. Todos y cada uno de los 9 genes predichos correctamente, conservan el núcleo central de la proteína que codifican, (posiblemente el núcleo funcional), aunque en prácticamente todos, la predicción carece del exón inicial, el terminal o ambos. Éste hecho nos refuerza en la idea de que en la fase de predicción ab initio, fuimos demasiado rigurosos en la selección de exones, y que para futuros estudios, posiblemente sea mejor utilizar el criterio dos de tres, en vez de tres de tres, para considerar la predicción de un exón como válida.

Conservación entre especies Realizaremos ahora un pequeño estudio de la conservación de tres de los genes codificados en la región ENm011, entre tres especies diferentes: humano, ratón y gallina.

Figura 5 | Alineamiento con VISTA del gen SYT8 entre las especies humano, ratón y gallina.

Page 19: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 19 de 25

Nos ayudaremos para el ejercicio de la aplicación VISTA Browser, que forma parte del conjunto de herramientas proporcionadas por el servidor VISTA45. El VISTA Browser es una aplicación programada en Java, que permite examinar un conjunto de alineamientos pre-calculados entre el genoma completo de un amplio conjunto de especies.

SYT8

El gen SYT8 en humanos está compuesto de 9 exones, de los que 7 se conservan en el ratón y solo 3 en la gallina (ver Figura 4 y adjunto vista-syt8-human-mouse-chicken.jpg.

TH

El gen TH en humanos está compuesto de 14 exones, 13 de ellos aún se conservan en el ratón, y la gallina aún conserva 11 en común con nosotros. Ver adjunto vista-th-human-mouse-chicken.jpg.

TNNI2

En humanos el gen TNNI2 se compone de 7 exones, de los que 6 aún se conservan en el ratón y 5 en la gallina. Ver adjunto vista-tnni2-human-mouse-chicken.jpg. En este pequeño estudio podemos observar como la conservación de exones entre proteínas se va perdiendo cuanto más alejada está en el árbol evolutivo la rama común que une las especies.

La superpista ENCODE Regulation El 20 de agosto de 2010, ENCODE anunciaba46 la publicación en el UCSC Genome Browser de una nueva super-pista que integraba todas las pistas relacionadas con el mecanismo de activación y desactivación de genes a nivel transcripcional. Actualmente la superpista se compone de solo seis pistas, que son simplemente una selección de las que contienen datos de interés general.

Transcription ENCODE Transcription Levels Assayed by RNA-seq on 6 Cell Lines

Layered H3K4Me1

ENCODE Enhancer- and Promoter-Associated Histone Mark (H3K4Me1) on 8 Cell Lines

Enhanced H3K27Ac

ENCODE Enhancer- and Promoter-Associated Histone Mark (H3K27Ac) on 8 Cell Lines

Layered H3K4Me3

ENCODE Promoter-Associated Histone Mark (H3K4Me3) on 9 Cell Lines

DNase Clusters

ENCODE Digital DNaseI Hypersensitivity Clusters

Txn Factor ChIP

ENCODE Transcription Factor ChIP-seq

Las pistas están reguladas por un código de colores (Figura 7), en el que cada color representa una línea celular. Para poder mostrar la actividad de varias líneas celulares en una sola pista, dichos colores se aplican con transparencias. La pista Transcription, muestra los niveles ensayados por el ARN-seq en seis líneas de células: Gm12878, H1 ES, HepG2, HUVEC, K562 y NHEK. En un análisis visual, observamos cuatro zonas de gran actividad, que se corresponden precisamente con exones de genes anotados por ENCODE (ver Tabla 17)

Tabla 17 | Tabla de máxima actividad de las líneas celulares analizadas en la pista Transcription de la Super-pista ENCODE Regulation, y los genes anotados por ENCODE en esas zonas actividad.

GEN LINEA CELULAR

CTSD Gm12878, H1 ES, HepG2, HUVEC, K562, NHEK

LSP1 Gm12878 MRPL23 Gm12878, H1 ES, HepG2, HUVEC, K562,

NHEK IGF2 Gm12878, HepG2

Por otro lado, sabemos que las modificaciones químicas en las histonas presentes en la cromatina influencian la expresión génica alterando la accesibilidad de la cromatina para su transcripción.

Figura 6 | Super-pista ENCODE Integrated Regulation posicionada en la región ENm011

Figura 7 | Código de colores de la superpista ENCODE Regulation para las líneas de células de cada sub-pista.

Page 20: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

20 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Las pistas Layered H3K4Me1, Enhanced H3K27AC y Layered H3k4Me3, muestran el nivel de enriquecimiento de una marca histónica concreta a lo largo del genoma para un grupo de líneas celulares. Examinando estas pistas, hemos observado dos hechos concretos: 1. Las pistas muestran zonas de máxima

actividad en las regiones inmediatamente anteriores, y a lo largo del primer exón de proteínas anotadas.

2. Existen otras zonas de gran actividad que no se alinean con ninguna proteína anotada.

Al tratarse de zonas reguladoras, la primera de las observaciones tiene cierto sentido en sí misma, mientras que para encontrar una explicación a la segunda observación, tendríamos que recurrir a la estructura 3D del genoma, lo que explicaría como zonas alejadas de una proteína en realidad ejerzan como regiones reguladoras de la misma.

Pista Burge RNA-seq ARN-seq es un método de mapear y cuantificar el transcriptoma de organismos basados en ADN. El método que se utiliza para obtener estas pistas de datos es la transcripcón inversa de muestras de ARN en cADN, seguido de una secuenciación de ADN de alto rendimiento en un Illumina Genome Anlyser47. La pista Burge muestra el ARN-seq publicado por el laboratorio de Chris Burge en 2008, mapeado en el genoma utilizando el GEM Mapper48 de Guigó lab en el Centro para la Regulación Genómica (CRG). Las subpistas muestras el ARN-seq para varios conjuntos de tejidos/líneas celulares: 1. Brain 2. Liver 3. Heart

4. Muscle 5. Colon 6. Adipose 7. Testes 8. Lymph Node 9. Breast 10. BT474 - Breast Tumour Cell Line 11. HME - Human Mammary Epithelial Cell Line 12. MCF7 - Breast Adenocarcinoma Cell Line 13. MB-435 - Breast Ductal Adenocarcinoma Cell

Line(*) 14. T-47D - Breast Ductal Carcinoma Cell Line

LSP1, TNNT3 y cáncer de mama

Este tipo de pistas muestran de forma muy gráfica la manera en la que se expresan las proteínas, y basándonos en ello y ya que disponemos de evidencias de varias líneas celulares que presentan cáncer de mama (BT474, HME, MCF7 y T-47D), y su contrapartida sana (Breast), vamos a realizar un pequeño experimento.

Mostraremos esas pistas junto con la pista de genes anotados por ENCODE en nuestra región de estudio ENm011, y observaremos, primero, si la actividad de las pistas Burge se alinea con los genes anotados, y segundo de ser así, si la actividad se presenta de modo diferencial entre las subpistas afectadas por la enfermedad, y la subpista sana breast (ver Figura 7). Si nos fijamos en la región comprendida entre la proteína LSP1 y TNNT3, observamos un claro cese de expresión proteica al comparar la pista sana (Breast) con las pistas pertenecientes a líneas celulares afectas por cáncer (BT474, HME, MCF7 y T47D). Esto indica que de alguna forma, mutaciones en los gens LSP1, TNNT3, o en las regiones reguladoras de

* Estudios posteriores, han demostrado que la línea de células MDA-MB-435 utilizada en el experimento, estaba contaminada con la línea celular M14 melanoma, por lo que se ha excluido del análisis.

Figura 8 | Detalle de en la región comprendida entre la proteína LSP1 y TNNT3, en la que se observa un claro cese de expresión proteica al comparar la pista Breast (sana) con las pistas pertenecienes a líneas celulares afectas por cancer: BT474, HME, MCF7 y T47D.

Expresión diferencial de las proteínas LSP1 y TNNT3, entre las muestras sanas y las muestras afectadas por cáncer de mama.

Page 21: Anotación Genómica de la región ENCODE ENm011

ANOTACIÓN ENCODE

Proyecto fin de Postgrado | Bioinformática Octubre 2011 Anotación Genómica de la región ENCODE ENm011 | 21 de 25

los mismos, impiden la correcta expresión de estas proteínas, lo que podría ser un buen punto de partida para una investigación más profunda de estas proteínas en relación con el riesgo de padecer cáncer de mama. Realizar estos experimentos queda fuera del alcance de este proyecto, pero una búsqueda rápida en Google, es suficiente para comprobar que nuestra hipótesis se acerca bastante a la realidad, puesto que encontramos una gran cantidad de trabajos científicos que relacionan mutaciones en estas proteínas con la enfermedad citada.

Page 22: Anotación Genómica de la región ENCODE ENm011
Page 23: Anotación Genómica de la región ENCODE ENm011

CONCLUSIONES Y REFLEXIONES FINALES

23 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Conclusión y Reflexiones finales Comentaremos a continuación un conjunto de ideas y reflexiones surgidas a lo largo del desarrollo del proyecto, que van desde simples conclusiones lógicas, derivadas de los resultados obtenidos, hasta pequeñas reflexiones que rozan lo filosófico, y que son fruto de las dificultades a las que nos hemos tenido que enfrentar y resolver para la resolución del mismo.

Conclusiones

Sobre los resultados

Tal y como sospechamos al final del primer bloque, las predicciones obtenidas han adolecido de una selección de exones demasiado exigente, lo que ha provocado que en la mayoría de las proteínas predichas se hayan perdido los exones iniciales, finales o ambos, conservando solamente el núcleo central de la misma. Las predicciones ab initio, tienen dificultades para separar los genes que se encuentran muy próximos en el genoma, y más de una ocasión, han concatenado los exones terminales de un gen, con los iniciales del siguiente.

Sobre el software de predicción ab initio

La primera impresión al utilizar los programas de predicción ab initio es de sorpresa, puesto que demuestran una gran habilidad para realizar predicciones muy aproximadas, acertando prácticamente siempre en los exones que formarán parte de las proteínas. Pero, una vez que comienzan los análisis minuciosos de cada predicción, esas pequeñas diferencias entre ellos, se convierten en un gran rompecabezas, dada la gran cantidad de combinaciones posibles que generan, entre las que no es sencillo seleccionar una opción u otra de forma automática. El problema principal al que me he enfrentado es el no saber qué hacer cuando las predicciones ofertaban como genes separados exones que en otras predicciones aparecían como pertenecientes al mismo gen. Los mecanismos de intersección automática de pistas no son efectivos en estos casos, porque los exones no son eliminados (dado que pertenecen a algún gen, y están predichos por los tres programas). En esta situación solo se me ocurre una intervención manual para mejorar la anotación, y esto ya requiere de una experiencia que solo puede ser adquirida tras la realización de muchas predicciones.

Sobre la anotación de genes

Es realmente difícil anotar un gen. Cada vez que eliminamos un exón de la predicción, nos surge la duda de si no se trataría en realidad de un exón implicado en algún ajuste alternativo aún no descubierto, y cada vez que añadimos un exón a una predicción, nos surge la duda contraria, y nos

preguntamos si no estaremos añadiendo un montón de aminoácidos a una proteína que nunca llegan a darse como producto real. A esto hay que añadir los problemas planteados por las isoformas, el ayuste alternativo, la solapación de diferentes productos en la misma region... Desde la perspectiva aportada por este proyecto, no veo posible de momento la delegación de la predicción completa de genomas a procesos íntegramente automatizados, y una prueba de ello la ofrecen las pistas del propio ENCODE, cuyas pistas de anotación manual tienen más del doble de genes que las pistas de anotación automática. Creo que podríamos establecer un símil entre la evolución de los programas de predicción de genes ab initio y los programas que juegan al ajedrez. Los primeros programas de ajedrez movían correctamente las piezas, pero en general eran malos jugadores. Los programas de predicción génica han superado esta fase hace tiempo. En una segunda fase, los programas de ajedrez se volvieron materialistas, no se dejaban piezas, era relativamente difícil ganarles para un aficionado, pero no eran capaces de ver el conjunto de la partida como un todo, y fallaban estrepitosamente frente a un experto jugador. En este estado está actualmente la predicción ab initio. Son capaces de encontrar y seleccionar exones con gran exactitud, y estructuran genes correctamente, aunque no de forma perfecta y al coste de incluir bastantes falsos positivos que deben ser filtrados de forma manual por los expertos humanos dedicados a la bioinformática. En la actualidad, los programas de ajedrez ya han alcanzado el nivel de los grandes maestros y han superado a los mejores jugadores del mundo. ¿Cuándo alcanzará este nivel el software de predicción de genes?

Sobre la sobredosis de información

Por si esto fuera poco, existen una gran cantidad de organismos que por separado se dedican a la predicción y anotación de genes cada una por su cuenta. Esto último, sería una ventaja si existiera una normalización reglamentada a la hora de dar nombres a los genes. Lo que ocurre ahora es que el resultado de cualquier consulta sobre los servidores habituales, está repleta de genes etiquetados como "uncultured", "hypotetical" o "predicted".

Page 24: Anotación Genómica de la región ENCODE ENm011

CONCLUSIONES Y REFLEXIONES FINALES

24 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

La consecuencia directa es que, si no tenemos cuidado, terminamos por utilizar como evidencias experimentales, datos que no lo son, y por tanto las predicciones se van auto degenerando, en un círculo vicioso de anotación - predicción. Un efecto secundario de esto, es la necesidad de la creación de servidores casi íntegramente dedicados al cruce de referencias. Se trata de bases de datos gigantescas que luchan a diario por permanecer actualizadas y ofrecer las equivalencias entre los nombres y enlaces de los productos anotados por cada uno de los organismos dedicados a este campo. Es por tanto cada vez más necesario y urgente, la creación de algún tipo de estándar mundial que se dedique a la estandarización y normalización de la bioinformática, y no solo me estoy refiriendo a la nomenclatura de los genes, sino a los formatos de los ficheros de intercambio de información entre aplicaciones, que son casi tan numerosos como aplicaciones existentes.

Sobre el trabajo útil

No me gustaría pasar por alto la sorpresa final que me he llevado al examinar la pista Burge RNA-seq y comprobar que los conceptos aprendidos durante el curso de Postgrado, han sido suficientes para realizar una primera hipótesis útil, al detectar una posible relación entre las proteínas LSP1, TNNT3 y el riesgo a padecer cáncer de mama. Me ha resultado muy gratificante comprobar como los conceptos biológicos se van asentando en mi cabeza de informático, y como poco a poco, voy siendo capaz de obtener conclusiones aplicables al mundo real, que sirven para solucionar problemas reales, algo que cuando trabajas muchas horas delante del ordenador, como es mi caso, se puede llegar a perder de vista fácilmente.

Consideraciones Muchas de las dificultades anteriormente comentadas, surgen de un intento de máxima automatización de procesos, evitando en la medida de lo posible la intervención manual, más allá de la aplicación de un formato, más o menos atractivo, a algunas tablas representadas en este documento. Para la realización del proyecto, ha sido necesaria una gran cantidad de ficheros auxiliares, a los que se hace alusión puntualmente a lo largo de todo el texto. La inclusión de los mismos en el cuerpo de este documento solo habría entorpecido la redacción y lectura del mismo, y además, dado el carácter informático de los mismos, puesto que la mayoría son resultados de ejecución de aplicaciones o fichero de entrada para las mismas, o imágenes demasiado grandes, no son apropiados para su inclusión en documentos impresos. En cualquier caso todos ellos están disponible en forma de ficheros adjuntos en un archivo comprimido que acompaña este proyecto.

Reflexión final Tal y como hemos visto en el la introducción del proyecto, la definición de gen necesita seguir evolucionando, como si de un ser vivo se tratara, a la par que nuestros conocimientos sobre la estructura y funcionalidad del genoma, hasta que llegue un momento en el que todos seamos capaces de tener claro a que nos referimos cuando pronunciamos la palabra gen.

Page 25: Anotación Genómica de la región ENCODE ENm011

REFERENCIAS Y BLIBIOGRAFÍA

25 de 25 | Fernando García Huerta Proyecto fin de Postgrado | Bioinformática Octubre 2011

Referencias y Bibliografía 1 The ENCODE project: ENCyclopedia Of DNA Elements – http://www.genome.gov/10005107 2 Birney, E., J. A. Stamatoyannopoulos, et al. (2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project." Nature 447(7146): 799-816. – http://www.genome.gov/Pages/Research/ENCODE/nature05874.pdf 3 Gerstein, M. B., C. Bruce, et al. (2007). "What is a gene, post-ENCODE? History and updated definition." Genome Res 17(6): 669-81. – http://genome.cshlp.org/content/17/6/669.full 4 About the Human Genome Project – http://www.ornl.gov/sci/techresources/Human_Genome/project/about.shtml 5 Nature 429, 365-368 (27 May 2004) | doi:10.1038/nature02390; Received 24 October 2003; Accepted 26 January 2004 – http://www.nature.com/nature/journal/v429/n6990/full/nature02390.html 6 modENCODE – The modENCODE Project will try to identify all of the sequence-based functional elements in the Caenorhabditis elegans and Drosophila melanogaster genomes – http://www.modencode.org/ 7 Blast – Developer information – http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=DeveloperInfo 8 Geneid – Source code and distribution – http://genome.crg.es/software/geneid/index.html#code 9 The modENCODE consortium. “Unlocking the Secrets of the Genome.” Nature 2009 Jun 18;459(7249):927-30. – http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2843545/ 10 UCSC Genombe Bioinformatics – http://genome.ucsc.edu/ 11 UCSC Genome Brouser on Human Mar. 2006 (NCBI36/hg18) Assemby – http://genome.ucsc.edu/encode/encode.hg18.html 12 geneid 1.2 Web Server 2005 – http://genome.crg.es/geneid.html 13 The GENSCAN Web Server at MIT – http://genes.mit.edu/GENSCAN.html 14 FGENESH – http://linux1.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind 15 Empalme alternativo (alternative splicing) – http://es.wikipedia.org/wiki/Splicing_alternativo 16 Microsoft Excel – http://office.microsoft.com/es-es/excel/ 17 Using native and synthetically mapped cDNA alignments to improve de novo gene finding – Mario Stake, Mark Diekhans, Robert Baertsch and David Haussler – Vol. 24 no. 5 2008, pages 637-644 |doi:10.1093/bioinformatics/btn013 – http://bioinformatics.oxfordjournals.org/content/24/5/637.full.pdf 18 Blastx 2.2.26 – Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. – http://www.ncbi.nlm.nih.gov/pubmed/9254694?dopt=Citation 19 Download BLAST Software and Databases – http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download 20 The BLAST Databases available descriptions – ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html 21 BLAST – Filter – Filter (Low–complexity) – http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#filter 22 UCSC Table Browser User's Guide – http://genome.ucsc.edu/goldenPath/help/hgTablesHelp.html 23 GFF format (General Feature Format) – http://genome.ucsc.edu/FAQ/FAQformat.html#format3 24 UCSC Manage Custom Tracks – http://genome.ucsc.edu/cgi-bin/hgCustom 25 Bioinformatics and Genomics home page – http://big.crg.cat/bioinformatics_and_genomics 26 The Research Programme on Biomedical Informatics (GRIB) – http://grib.imim.es/

27 Genómica comparativa y predicción de genes – Roderic Guigó i Serra – Centro de Regulación Genómica de Barcelona – http://www.institutoroche.es/Biotecnologia_bioinformatica/V11.html 28 NCBI – The Reference Sequence (RefSeq) – http://www.ncbi.nlm.nih.gov/RefSeq/ 29 MySQL Documentation: MySQL Reference Manuals – http://dev.mysql.com/doc/ 30 UCSC Table Browser – Direct MySQL Access to data – http://genome.ucsc.edu/FAQ/FAQdownloads#download29 31 UCSC Table Browser – Schema for RefSeq Genes – http://genome.ucsc.edu/cgi-bin/hgTables 32 The Gene Ontology – http://www.geneontology.org/ 33 The Gene Ontology – Advanced Search – http://amigo.geneontology.org/cgi-bin/amigo/search.cgi?action=advanced_query&session_id=2749amigo1342118152 34 Wikipedia – Gene cluster – http://en.wikipedia.org/wiki/Gene_cluster 35 DAVID Bioinformatics Resources 6.7 – http://david.abcc.ncifcrf.gov/ 36 Vega – Transcript summary – actin pseudogene – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000045387;r=11:1824119-1825325;t=OTTHUMT00000105391 37 Vega – Transcript summary – synaptotagmin VIII – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000009026;r=11:1856221-1858751;t=OTTHUMT00000320502 38 Vega – Transcript summary – troponin I type 2 (skeletal, fast) – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000012253;r=11:1861424-1862908;t=OTTHUMT00000034048 39 Vega – Transcript summary –lymphocyte-specific protein 1 – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000012252;r=11:1897707-1908096;t=OTTHUMT00000142916 40 Vega – Transcript summary – troponin type 3 (skeletal, fast) – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000012475;r=11:1940792-1959936;t=OTTHUMT00000034756 41 Vega – Transcript summary – mitochondrial ribosomal protein L23 – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000012476;r=11:1968508-1977839;t=OTTHUMT00000034765 42 Vega – Transcript summary – insulin-like growth factor 2 (somatomedin A) – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000009395;r=11:2153903-2162246;t=OTTHUMT00000026386 43 Vega – Transcript summary – tyrosine hydroxylase – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000009559;r=11:2185159-2193107;t=OTTHUMT00000026397 44 Vega – Transcript summary – tetraspanim 32 – http://vega.sanger.ac.uk/Homo_sapiens/Transcript/Summary?g=OTTHUMG00000009762;r=11:2323243-2339372;t=OTTHUMT00000026912 45 VISTA – Tools for Comparative Genomics – http://genome.lbl.gov/vista/index.shtml 46 ENCODE Data Coordination Center at UCSC – 20 August 2010 New ENCODE Integrated Regulation Super-track Released – http://genome.ucsc.edu/ENCODE/newsarch.html#2004 47 Illumina Genome Analyzer – http://www.illumina.com/systems/genome_analyzer_iix.ilmn 48 The GEM mapper: faster and more accurate alignment of high-throughput sequencing reads – http://barnaserver.com/ribeca/NM/