base de datos para proteÍnas que participan en ... · transcripción, el mantenimiento del genoma...

27
BASE DE DATOS PARA PROTEÍNAS QUE PARTICIPAN EN REGULACIÓN EPIGENÉTICA SUSANA MARTÍNEZ ARBAS MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III 2013-2014 LUXEMBOURG CENTRE OF SYSTEMS BIOLOGY REINHARD SCHNEIDER Y ANTONIO DEL SOL TUTOR: DAVID DE JUAN FECHA: ENERO DE 2015

Upload: dangthu

Post on 06-Nov-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

BASE DE DATOS PARA PROTEÍNAS QUE

PARTICIPAN EN REGULACIÓN EPIGENÉTICA

SUSANA MARTÍNEZ ARBAS

MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL

ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III

2013-2014

LUXEMBOURG CENTRE OF SYSTEMS BIOLOGY

REINHARD SCHNEIDER Y ANTONIO DEL SOL

TUTOR: DAVID DE JUAN

FECHA: ENERO DE 2015

1

ÍNDICE

1. Resumen ............................................................................................................................ 2

2. Abreviaturas ...................................................................................................................... 2

3. Introducción ...................................................................................................................... 3

a. Mecanismos de regulación epigenética ............................................................................ 4

b. Bases de datos con información epigenética .................................................................... 7

4. Objetivos ........................................................................................................................... 8

5. Construcción de la base de datos ....................................................................................... 8

a. Elaboración de listas de genes que participan en regulación epigenética ....................... 9

b. Selección de la información de interés ........................................................................... 10

c. Diseño de la base de datos .............................................................................................. 13

6. Escenario de aplicación de la base de datos .................................................................... 16

7. Discusión y conclusiones ................................................................................................ 20

8. Bibliografía ..................................................................................................................... 22

ANEXO I ................................................................................................................................... 25

2

1. Resumen

La interacción entre los mecanismos de regulación epigenética y de la transcripción

desempeña un papel importante en procesos celulares tales como el desarrollo, la

diferenciación y la reprogramación celulares. En los últimos años, se han producido

rápidos avances en la comprensión de los mecanismos epigenéticos, que incluyen las

modificaciones de las histonas, la metilación de ADN, la regulación por ARNs no

codificantes y la remodelación de la cromatina. Sin embargo, un gran obstáculo para el

estudio de estos mecanismos es que no se conocen todos los factores que intervienen en

los mismos y, por tanto, la compresión de los mecanismos moleculares de la regulación

epigenética es incompleta. Por ello, se ha construido una base de datos que contiene las

proteínas que forman parte de los mecanismos de regulación mencionados,

proporcionando una clasificación de las mismas según su función (writers, erasers,

readers, factores remodeladores, factores de transcripción) e integrando información

sobre las mismas, sobre sus interacciones y su expresión génica.

2. Abreviaturas

NCBI National Center for Biotchnology Information

5mC 5-metilcitosina

ADN Ácido desoxirribonucleico

ARN Ácido ribonucleico

ATP Adenosín trifosfato

CR Cistrome Chromatin Regulator Cistrome

DAnCER Disease Annotated Chromatin Resource

EMBL-EBI European Bioinformatics Institute

GO Gene ontology

Histome The Histone Infobase

PPI protein-protein interaction

PTM Postranslational modifications

STRING Search Tool for the Retrieval of Interacting Genes/Proteins

3

3. Introducción

La epigenética se define como el estudio de los cambios en el material hereditario que

afectan a la expresión genética y no son resultado de cambios en la secuencia del ADN,

si no de la estructura de la cromatina. Dicha estructura se encuentra principalmente en

dos estados: heterocromatina, que es transcripcionalmente inactiva por estar altamente

condensada, y eucromatina, que es transcripcionalmente activa. La unidad básica de la

cromatina es el nucleosoma, que es complejo nucleo-proteico octamérico, compuesta

por pares de las histonas H2A, H2B, H3 y H4, envuelta por 147 pares de bases de ADN

[1, 2]. La regulación del estado o conformación de la cromatina se lleva a cabo a través

de los mecanismos de metilación de ADN, de remodelado de la cromatina por

complejos proteicos remodeladores y de la modificación covalente de histonas. Estos

mecanismos alteran las interacciones entre las histonas del octámero o entre

nucleosomas cercanos, lo que determina cambios en la organización macromolecular de

la cromatina, afectando a la accesibilidad de los promotores lo que permite una

regulación de la expresión genética. Otras modificaciones químicas sirven como señales

a otras proteínas específicas involucradas en la organización de la cromatina, la

transcripción, el mantenimiento del genoma y la replicación[3].

Mientras que la secuencia de ADN es prácticamente la misma en todas las células del

organismo, estas modificaciones en la estructura de la cromatina son dinámicas (figura

1), lo cual permite cambios en la expresión génica dependientes del contexto, es decir,

de la línea celular, el tejido o momento del desarrollo [4, 5]. La coordinación de

mecanismos genéticos y epigenéticos regula la unión de los factores de transcripción al

ADN y, por tanto, la expresión génica. Por ejemplo, la metilación del ADN, conocida

clásicamente por producir silenciamiento génico, impide la interacción directa de los

factores de transcripción con el ADN, de forma que se necesitan proteínas adicionales

que reconozcan dichas metilaciones a menudo relacionadas con remodeladores de

cromatina y correpresores transcripcionales (figura 1)[5].

Así pues, la regulación epigenética de la expresión génica es el resultado de la presencia

de una variedad de mecanismos interrelacionados, como son la metilación de ADN, la

modificación covalente de histonas, el remodelado de la cromatina por procesos ATP-

dependiente o intercambio de variantes de histonas y la regulación por ARN no

codificante[2, 6].

4

Figura 1. La actividad coordinada de los mecanismos genéticos y epigenéticos de regulación génica afecta a la unión de los factores de transcripción al ADN. En la imagen de la izquierda se observa que el factor de transcripción se une directamente a una secuencia específica del ADN, activando la transcripción. En cambio, en la imagen de la derecha que, en presencia de metilaciones del ADN, un factor de transcripción puede unirse o no a la secuencia promotora, siendo el efecto de las metilaciones de silenciamiento (es lo que ocurre con mayor frecuencia) o activación de la transcripción del gen [5].

a. Mecanismos de regulación epigenética

La metilación del ADN consiste en la adición de un grupo metilo en la posición 5 de

citosinas localizadas en las llamadas islas CpG (regiones ricas en dinucleótidos CG),

formando 5mC (5-metilcitosina) [7]. Dicha metilación se caracteriza por silenciar la

transcripción génica. Puede inhibir directamente la interacción de la cromatina con

elementos transcripcionales o reclutar proteínas que alteran la conformación de la

cromatina (modificadores de histonas y complejos remodeladores) promoviendo la

compactación de la misma, lo que refuerza la inhibición de la trancripción génica en los

contextos de impronta genética o imprinting, presencia de elementos transponibles, y

expresión génica tejido-específica [5, 8].

Los procesos de modificación covalente de histonas con clave en la regulación

epigenética. Dichas proteínas tienen los extremos N-terminal expuestos en los

nucleosomas pudiendo ser modificados químicamente (modificaciones

postraduccionales, PTM), por ejemplo, mediante la metilación de argininas y lisinas. De

esta manera puede cambiarse la carga de la cromatina y dirigir un cambio en su estado,

más condensado o abierto, lo cual determina el acceso de proteínas reguladoras al DNA,

entre ellas los factores de transcripción[2, 9].

5

Hay dos mecanismos principales que afectan a las interacciones que se dan entre las

histonas o entre los nucleosomas. El primero es la disrupción de contactos entre los

nucleosomas para “desenmarañar” la cromatina y el reclutamiento de proteínas no

histonas. El segundo, y mejor caracterizado hasta el momento, depende de las

modificaciones presentes en las histonas, que atraen a proteínas que pueden cambiar la

accesibilidad del ADN gracias a la actividad enzimática que acarrean, siendo necesarios

distintos tipos de actividad enzimática según qué proceso se regule (transcripción,

replicación o reparación del ADN) ya que se requieren distintos tipos de actividad

remodeladora de la cromatina [5].

Las enzimas que catalizan las PTMs de las histonas han sido clasificadas en tres grupos

principales: los writers que añaden la modificación, los readers que reconocen dicha

modificación y los erasers que la eliminan (figura 2) [10, 11]. Dichas PTMs pueden ser

metilaciones, acetilaciones y fosforilaciones, entre otras. Las PTMs mejor estudiadas

son la acetilación y la fosforilación, mientras que el estudio la metilación es más

complejo debido a la presencia de varios niveles de metilación[11]. Se conocen

numerosas PTMs específicas que se encuentran mayoritariamente en regiones

silenciadas o activadas, aunque lo que determina dicho estado es la combinación de las

distintas PTMs (figura 3). Por ejemplo, la metilación H3K4me3 es activadora, y las

H3K9me2/3 son represivas, pero en función de las proporciones presentes de cada una,

el resultado será la activación o la represión génica (figura 3) [8, 12].

Figura 2. Esquema de la actividad de las enzimas modificadoras de histonas. Los writers añaden l PTM (izquierda), los erasers eliminan dichas modificaciones (parte central) y los readers interpretan estas modificaciones covalentes para mediar los procesos que ocurrirán tras su reconocimiento [11].

6

Además de la regulación a través de modificaciones covalentes en las histonas, los

factores remodeladores de cromatina ATP-dependientes también afectan a la estructura

de la cromatina, afectando a la expresión génica. Estos factores suelen formar parte de

complejos proteicos. Hay varias familias de complejos remodeladores de cromatina, un

ejemplo clásico es de la superfamilia SWI/SNF, cuyos complejos utilizan la hidrólisis

de ATP para cambiar los contactos proteína-DNA y ejercen un importante papel durante

la diferenciación y reprogramación celular [3].

Figura 3. Distribución de las modificaciones de histonas en genes activos y silenciados. Las imágenes a y c son representaciones esquemáticas de los nucleosomas y las imágenes b y d indican la presencia y distribución de distintas PTMs presentes en un gen activo o en uno inactivo [12].

En consecuencia, la pérdida de función o funcionamiento defectuoso de cualquiera de

los mecanismos descritos puede conducir al desarrollo de estados patológicos y

enfermedades en el organismo, ya que la regulación de la estructura de la cromatina

proporciona un medio de control de la expresión génica bajo diferentes condiciones

fisiológicas [3, 9].

A pesar de su importancia, los mecanismos concretos de funcionamiento de la

regulación epigenética no se conocen con detalle. En los últimos años, se han realizado

numerosos estudios con el objetivo de dilucidar dichos mecanismos, siendo numerosos

aquellos realizados en sistemas que contienen células pluripotentes, como la

hematopoyesis y el desarrollo embrionario, así como en proceseos reprogramación

celular [13-15].

7

b. Bases de datos con información epigenética

Se han generado una enorme cantidad de datos experimentales (por ejemplo mediante la

tecnología del Chip-seq) que requieren de análisis computacionales integrativos de la

información disponible y de análisis predictivos, con el objetivo de conocer mejor los

mecanismos epigenéticos conocidos y enfocar el trabajo experimental futuro. Para

procesar dicha cantidad de datos experimentales, en los últimos años se han construido

numerosas bases de datos con información epigenética y/o herramientas de análisis

(como Histome: The Histone Infobase [16] o CR Cistrome: Chromatin Regulator

Cistrome [17]). Asimismo, debido a la importancia de la regulación epigenética en el

desarrollo de ciertas patologías, como cáncer, se han elaborado bases de datos enfocadas

a conocer las interacciones de todo tipo de moléculas (como Biograph[18]) o

interacciones entre proteínas relacionadas con regulación epigenética y el desarrollo de

enfermedades (como DAnCER: Disease Annotated Chromatin Resource [19]).

Las bases de datos mencionadas son solamente una muestra de la variedad que hay

disponible en la red. Cada una de ellas proporciona información específica aplicada al

objetivo del estudio del investigador que la consulta, desde la localización genómica de

genes para conocer su contexto en marcas de histonas o la presencia cercana de genes

codificantes para proteínas modificadoras (CR Cistrome, Histome) hasta la elaboración

de redes de interacciones encontradas para el gen de interés en el ámbito de

enfermedades humanas (Biograph) o la relación con elementos epigenéticos con los que

interacciona un gen dado, también en el ámbito de enfermedades (DAnCER).

Estas bases de datos son muy completas para cumplir los objetivos que se proponen. Sin

embargo, no están diseñadas para dilucidar los mecanismos moleculares de

funcionamiento de los procesos epigenéticos que se dan durante procesos como, por

ejemplo, la diferenciación celular, si no que se enfocan a profundizar en el

conocimiento de dichos mecanismos en situaciones de desarrollo de enfermedades. Por

ello, el presente trabajo se centra en la construcción de una base de datos que

proporcione interacciones con proteínas implicadas en dichos mecanismos,

independientemente de su implicación en enfermedades, proporcionando una

clasificación de los modificadores en writers, erasers, readers y remodeladores, siendo

así ésta más amplia que en las bases de datos mencionadas ya que la mayoría de

8

clasificaciones encontradas se basa solamente en writers y erasers. También estará

centrada en proteínas humanas y en interacciones proteína-proteína (tabla 1).

Tabla 1. Comparación de una muestra de bases de datos que contienen información epigenética y algunas características de dicha información.

Tipo información

Base de datos

Biograph Chromatin Regulator Cistrome

Histome DAnCER NUEVA

Organismos Humano Modelos Humanos Modelos Humano

Contexto Enfermedades Tejido, línea celular

Localización genómica

Enfermedades y modificación de cromatina

Modificación de cromatina

Interacciones Todo tipo - - PPI PPI

Complejos proteicos Sí No No Sí Sí

Clasificación de modificadores

No Sí Sí, incompleta

No Sí

Datos en entrada Un gen/proteína

Chip-seq Un gen/proteína

Uno/varios genes

Uno/varios genes

Pública Sí Sí Sí Parte -

4. Objetivos

Los principales objetivos de este trabajo son:

- Proporcionar una clasificación de las enzimas modificadoras de histonas en

writers, erasers y readers.

- Integrar la información sobre dichas proteínas y sus interacciones que se encuentra

dispersa en distintas bases de datos públicas.

- Construcción de una base de datos relacional que almacene dicha información.

5. Construcción de la base de datos

La base de datos, llamada eventualmente ProteInEpi: database for PROTEins INvolved

in EPIgenetic regulation, ha seguido un proceso de desarrollo que abarca desde un

estudio preliminar de la información que se podría extraer por minería de datos, hasta la

integración de información contenida en distintas bases de datos públicas dispersas por

la red, mediante su almacenamiento en una sencilla y única base de datos relacional.

Así pues, primero se realizó un estudio preliminar para conocer, por un lado, si

mediante búsquedas de textos relacionados con modificación de histonas y regulación

epigenética, entre otros, se podría extraer listas de genes codificantes y no codificantes

9

lo suficientemente completas y, por otro lado, si existen bases de datos públicas que

cumplan los mismos objetivos que la presente base de datos.

Una vez realizado dicho estudio preliminar, se procedió a la elaboración de las listas de

genes y proteínas que iban a ser almacenadas en la base de datos, el diseño de la nueva

base de datos y la extracción de la información de interés, procedente de distintas

fuentes, sobre los genes y las proteínas seleccionadas para su posterior almacenamiento

en la nueva base de datos.

a. Elaboración de listas de genes que participan en

regulación epigenética

En esta primera fase de búsqueda de genes relacionados con regulación epigenética, se

realizó una búsqueda avanzada de literatura en la base de datos PubMed del National

Center for Biotchnology Information (NCBI) combinando términos relacionados con

regulación y epigenética. Una vez realizadas las búsquedas, se analizaron, mediante

herramientas de text mining los resúmenes disponibles de los artículos científicos

encontrados bajo dichos términos con el objetivo de extraer los nombres de genes y

proteínas que aparecían en ellos, obteniéndose un total de 5582 genes a partir de 23794

resúmenes. Los términos utilizados en la búsqueda (tabla 2) resultaron ser muy

generales en relación a los procesos epigenéticos y regulación debido a que búsquedas

más específicas proporcionaban un número pequeño de artículos, entre 10 y 200

dependiendo de los términos.

Así pues, una vez obtenida esta primera lista de genes se procedió a comprobar el tipo

de genes que contenía y cómo de completa era en cuanto a la presencia de genes

conocidos como participantes modificación de histonas, proceso fundamental en

regulación epigenética. Para ello, se extrajo de la base de datos EMBL-EBI (The

European Bioinformatics Institute) usando la aplicación de QuickGO (navegador rápido

para términos de Gene Ontology y sus anotaciones) una lista de genes agrupados bajo el

término histone modification de Gene Ontology (GO), ya que abarca procesos que

ocurren durante la regulación epigenética, como la modificación de la estructura de la

cromatina (figura 4). Se aplicó el filtro de taxonomía en la búsqueda de manera que

solamente se mostraran genes de humanos y con evidencias experimentales sobre ellos.

En este caso la lista de genes contenía 318.

10

A continuación, se compararon ambas listas de genes y se comprobó que la lista

procedente de la búsqueda por text mining era muy incompleta en cuanto a la presencia

de los genes proporcionados por GO. Por lo tanto, al no ser un trabajo sobre predicción

de interacciones encontradas mediante text mining, se procedió a realizar una lista de

genes relacionados con modificación de histonas y remodelado de la cromatina

consultando fuentes curadas manualmente y literatura. Así pues, se realizó una lista de

genes codificantes, por un lado, para proteínas modificadoras de histonas clasificadas

como erasers, writers y readers procedente de la base de datos “HIstome: The Histone

Infobase” [16] y de la revisión de Yun, M. et al. 2011 [20] y, por otro lado, para

proteínas remodeladoras de cromatina procedentes de la revisión de Bao, Y et al. 2007

[21], sobre los complejos remodeladores de cromatina, y factores de transcripción

relacionados con dicho remodelado procedentes de la base de datos AnimalTFDB [22].

Tabla 2. Diferentes queries utilizados en la búsqueda avanzada de abstracts en PubMed para la extracción de listas de genes mediante herramientas de text mining.

Queries utilizados en la búsqueda de literatura Número de

registros

"(Gene Expression Regulation[MeSH Terms]) AND ("histone modification" OR "histone code" OR "histone marks" OR "epigenetic modifier") AND ("Humans"[MeSH Terms])"

1188

"("dna methylation" OR "chromatin remodeling" ) AND (Gene Expression Regulation[MeSH Terms]) AND ("Humans"[MeSH Terms])"

13850

"histone" AND ((Gene Expression Regulation[MeSH Terms]) AND ("Humans"[MeSH Terms]))"

13534

Otros

Numero de abstracts no redundantes 23794

Número de genes extraídos de los abstracts 5582

Finalmente, se obtuvo una lista de genes, llamada modificadores, constituida por 417

genes, entre ellos enzimas modificadoras de histonas clasificadas en erasers, readers y

writers, proteínas pertenecientes a complejos remodeladores y factores de transcripción.

En esta lista, un mismo gen puede estar clasificado en varias categorías. Por ejemplo, el

gen KAT2A que codifica para la proteína K(Lisina) Acetiltransferasa 2A, puede ejercer

la función de writer (dominio N-acetiltransferasa) o de reader (bromodominio de la

proteína) en función del contexto en el que se encuentre.

b. Selección de la información de interés

Una vez obtenida la lista de genes modificadores a partir de la cual se centra la

búsqueda del resto de la información, se amplió la lista con los genes con los que

interaccionan y se procedió a la selección de las bases de datos de las que se recopilaría

11

información sobre las proteínas, sus interacciones, la expresión génica y la pertenencia a

complejos proteicos.

Figura 4. Diagrama obtenido a través de Gene Ontology (http://www.ebi.ac.uk/QuickGo) que muestra los términos agrupados bajo el de “histone modification”. Se puede observar que el término “chromatin modification” es más específico que el de “histone modification”, por tanto, una lista de genes obtenida a partir de este último término abarcaría también los genes almacenados bajo el término de “chromatin modification”.

Primero, se obtuvieron las interacciones contenidas en la base de datos de STRING

(Search Tool for the Retrieval of Interacting Genes/Proteins [23]) que contiene

interacciones proteína-proteína (PPI de sus siglas en inglés protein-protein interaction)

tanto conocidas, como predichas. Entonces, se añadieron a la lista de genes para

almacenar en la base de datos todos aquellos que interaccionan con los genes

12

modificadores, previamente convertidos los identificadores de proteínas en

identificadores de genes mediante la herramienta de conversión online de BioMart

(http://central.biomart.org/converter/#!/ID_converter/). Posteriormente, los genes de las

proteínas que forman complejos proteicos conocidos en humanos también se incluyeron

en dicha lista. Así, el número total de genes contenidos en la base de datos es de 4832 y

el de proteínas es de 19129.

Una vez elaborada la lista de proteínas que se almacenarían, se descargó de la base de

datos UniProtKB (http://www.uniprot.org/) la información anotada sobre ellas en el

formato de texto plano clásico de UniProt (http://web.expasy.org/docs/userman.html).

La información tomada de UniProt fue la siguiente:

- Número identificador de acceso de la proteína. En caso de haber más de uno, se

anotaron tanto el principal, como los secundarios.

- El nombre del gen y sus sinónimos si los hubiera.

- Estatus de la proteína. Cuando el estatus es reviewed, la proteína ha sido anotada

manualmente, habiendo sido extraída la información de literatura y analizada y

evaluada computacionalmente. Cuando el estatus es unreviewed, la proteína ha

sido analizada computacionalmente, pero está a la espera de ser anotada

manualmente.

- La fecha de la última actualización de la anotación de la proteína.

- El organismo en el que se ha estudiado la proteína. En principio solamente se

buscaron proteínas humanas.

- La descripción de la proteína.

- Los términos de GO para la proteína.

Para la obtención de la información sobre las PPI, fue utilizada la última versión de

STRING, v9.1. Las interacciones de las proteínas en humanos almacenadas en STRING

se encuentran disponibles directamente en la sección de descargas, así pues, mediante la

lista de interacciones obtenida en STRING se procedió a extraer, utilizando scripts de

perl, solamente las de las proteínas de la lista que se almacenarían en la base de datos.

En este caso, los identificadores de proteínas utilizados fueron los de Ensembl. Sin

embargo, en los casos en los que un gen codifica para distintas isoformas proteicas,

STRING solamente utiliza el identificador de la proteína codificada más larga o de la

mejor conocida para el gen en cuestión, de forma que, aunque exista información

detallada de distintas isoformas, en STRING sus interacciones quedan agrupadas bajo

13

un mismo identificador. En este caso, se extrajo la información relativa a la interacción,

los dos elementos que interactúan, el tipo de interacción, la puntuación asociada según

las evidencias experimentales o computacionales y la fuente de información de dicha

interacción que puede ser también tomada, a su vez, de otras bases de datos, ya que

STRING integra información sobre interacciones de las bases de datos IntAct y

MINT[24], BioGrid[25], BIND[26], DIP[27], HPRD[28] y PID[29] como fuentes de

datos experimentales y de Biocarta (http://www.biocarta.com/genes/index.asp),

BioCyc[30], GO[31], KEGG[32] y Reactome[33] como fuentes de datos curados sobre

interacciones en rutas metabólicas.

Para conocer la información relativa a los complejos proteicos, principalmente

componentes y función, se consultó la base de datos CORUM – the Comprehensive

Resource of Mammalian protein complexes[34], que tiene disponible una lista curada

manualmente de complejos proteicos en mamíferos, incluyendo humanos. En este caso,

la información extraída contenía el nombre del complejo y sus componentes, el/los

organismos donde se ha estudiado, el método de purificación y las referencias a la

fuente de información de los datos experimentales, además de comentarios acerca de la

función o enfermedades asociadas.

Por último, con el objetivo de contextualizar a las proteínas, se incluyó información

relativa a la expresión génica en distintos tejidos y líneas celulares, en contexto de no

enfermedad, utilizando la información disponible en la base de datos THE HUMAN

PROTEIN ATLAS [35]. Como en el caso de las interacciones de STRING, se descargó

la información disponible sobre la expresión de todas las proteínas y, mediante scripts

en perl se tomaron solamente los datos relativos a los genes de la lista que almacenaría

la nueva base de datos.

c. Diseño de la base de datos

Para el desarrollo del software de almacenamiento en la base de datos se ha utilizado el

lenguaje de programación perl, para la creación de las tablas se ha utilizado SQL y para

la gestión de la base de datos se han utilizado PostgreSQL(v9.1.11) y la herramienta

pgAdmin (v1.18.0).

Son varios los niveles de información almacenados (tabla 3); nivel de identificadores,

las conversiones entre los distintos identificadores de distintas bases de datos, ya que

14

cada una utiliza el que considera oportuno (HGNC, Ensembl, Uniprot, etc); nivel de

genes, las anotaciones relativas a las proteínas que codifican, la expresión génica, etc. y

el nivel de interacciones, que son entre proteínas y su pertenencia a complejos proteicos.

Así pues, seleccionada la información que contendría la base de datos relacional se

procedió al diseño de la misma, en el que las tablas se relacionan unas con otras a través

de los identificadores de las proteínas y los genes. Contiene un total de 12 tablas (figura

5), de las cuales 5 de ellas contienen información relativa al nivel de identificadores

(ensgene_list, ensprotein_id, hgnc_alias_is, acc_list, acc_uniprot_id), 4 de ellas

contienen la información correspondiente al nivel de genes (modifiers, context,

protein_info, gene_ontology) y las 3 últimas contienen las interacciones entre las

proteínas y la información sobre los complejos proteicos (interactions,

complexes_subunits, complexes). En cuanto al contenido final de la base de datos, se

resume en la tabla 4.

Tabla 3. Niveles de información almacenados en la base de datos y resumen de las fuentes utilizadas para la extracción de la información.

Nivel Información Bases de datos

Identificadores Conversión BioMart (http://central.biomart.org/converter/#!/ID_converter/)

Genes

Modificadores y clasificación, factores de transcripción, otros.

HIstome: The Histone Infobase[16] AnimalTFDB: Animal Transcription Factor Database[22] Literatura seleccionada[20]

Anotaciones de Gene Ontology

UniProt (www.uniprot.org)

Anotaciones de las proteínas

UniProt (www.uniprot.org)

Expresión génica THE HUMAN PROTEIN ATLAS[35]

Interacciones

Interacciones proteína-proteína

STRING v9.1[23]

Complejos proteicos CORUM – the Comprehensive Resource of Mammalian protein complexes[34]

La tabla muestra la información almacenada en la base de datos relativa los niveles de información génica y de interacciones. En la columna “Nivel” se indica el nivel de la información, en la columna “Información” se detalla el tipo de información o anotaciones almacenadas y en la comluma “Bases de datos” se muestran las fuentes de información utilizadas.

15

Figura 5. Organización de la información de la base de datos y relaciones entre las tablas. Las tablas Ensgene_list, Hgnc_alias_id, Ensprotein_id, Acc_uniprot_id y Acc_list almacenan los distintos identificadores usados por distintas bases de datos, tanto de los genes como de las proteínas. Las tablas Modifiers, Context, Protein_info y Gene_ontology contienen información relativa a los genes y las proteínas que codifican. Por último, las tablas Interactions, Complexes_subunits y Complexes almacenan información relativa a las interacciones entre las proteínas.

Tabla 4. Contenido almacenado en la base de datos desarrollada. Se indica el número de registros de las interacciones almacenadas, los complejos proteicos y los genes clasificados como modificadores.

Tipo de información Número de registros almacenados

Genes codificantes de proteínas modificadoras 417 Readers 62 Writers 107 Erasers 52 Otros 196

Genes 4832

Interacciones 26829

Complejos proteicos 1356

Proteínas 19129

16

Finalmente, se destacan algunas características importantes de la base de datos

construida:

La información almacenada procede de fuentes públicas, de manera que se

encuentra disponible en su totalidad en las bases de datos indicadas para cada tipo

de información.

Es una base de datos que integra información de distintas fuentes, para consultarla

de manera informativa. Por otro lado, no tiene carácter predictivo de PPI o de

modificadores y remodeladores de cromatina que aún tengan que ser validados.

Las interacciones binarias que se muestran son aquellas en las que uno de los dos

elementos que interaccionan es un modificador o un remodelador presente en la lista

de genes almacenada. En el caso de que el gen que se consulta sea un modificador,

se mostrarán todas sus interacciones (aquellas con un score mínimo de 0,8, ya sean

conocidas o transferidas de otros organismos). Mientras que en caso de que el gen

de la consulta sea un no modificador, al mostrarse solo interacciones con

modificadores, puede no haber información relativa a interacciones, no porque no

las tenga, sino porque no las tiene con las proteínas modificadoras almacenadas.

6. Escenario de aplicación de la base de datos

Esta base de datos podría usarse con distintos objetivos, sin embargo, inicialmente se ha

centrado en el siguiente escenario hipotético: dada una lista de genes, que pueden

proceder de experimentos de expresión génica, se querría ver si la expresión de dichos

genes coincide con la información que proporciona la base de datos. Así pues, dados los

genes A, B y C que codifican proteínas diferentes, muestran patrones de expresión

diferentes según las condiciones experimentales en las que se encuentran. En la

condición 1, A y B tienen una alta expresión, mientras que C tiene baja expresión. En la

condición 2 ocurre lo contrario, A y B tienen una baja expresión, mientras que C tiene

alta expresión. Conociendo esta información, se podría consultar la nueva base de datos

para conocer si estas proteínas son o interaccionan con proteínas modificadoras, además

de si forman parte de algún complejo proteico. Una vez obtenida dicha información, el

estudio podría pasar a la siguiente fase, que podría ser por ejemplo el modelado

dinámico de una red de expresión génica conocida, añadiendo un nivel superior de

información epigenética (figura 6).

17

Figura 6. Esquema de un escenario de aplicación hipotético de la base de datos. Primero, se parte de datos experimentales de expresión génica en distintas condiciones (cuadro superior). Segundo, se realizan las consultas pertinentes en la base de datos (parte inferior). Por último, se interpretan los resultados combinados y se procede a continuar con el estudio, como ejemplo se nombra el modelado dinámico.

A continuación se muestran los resultados para la lista de genes EED, SUZ12, EZH2 y

HIC1. En primer lugar se muestra si estos genes son enzimas modificadoras u otro tipo

de proteína remodeladora, factores de transcripción u otros (tabla 5). En este caso, tres

de los genes están involucrados en regulación epigenética, EED como enzima que

reconoce modificaciones de histonas (reader), EZH2 como enzima que las añade

(writer) y SUZ12 como un factor remodelaor, mientras que el cuarto gen (HIC1) es un

factor de transcripción. Además, hay casos en los que no solo se conoce el tipo de

modificador que es una enzima, si no que se conoce también en qué marcas ejerce su

función (indicadas como PTMs en la tabla 5). Una vez obtenida esta información sobre

los genes de entrada, se buscan sus interacciones con otras proteínas epigenéticas (tabla

6) y se comprueba si pertenecen a complejos proteicos (tabla 7). En estos genes, se

observa que EED, EZH2 y SUZ12 tienen interacciones entre ellos, además de coincidir

en los mismos complejos proteicos (tabla 7). En cambio, el factor de transcripción HIC1

no muestra interacciones con ellos, ni pertenece a ningún complejo proteico, aunque sí

interacciona con proteínas epigeneticas (PHF19 y PHF1), una de las cuales, a su vez

interacciona con EZH2 y SUZ12 (tabla 6). Por último, estos resultados se proporcionan

de manera que es posible representarlos en redes utilizando, por ejemplo, el software de

representación de redes Cytoscape.

18

Tabla 5. Clasificación de los genes de consulta. Se muestran los nombres de los genes usando la nomenclatura de HGNC y en identificador de Ensembl, el identificador de la proteína de Ensembl, su clasificación y las modificaciones postraduccionales (PTM).

Gen de entrada

Id. gen Ensembl Id. proteína Ensembl Modificador/TF/Otros PTMs

EED ENSG00000074266 ENSP00000263360 reader H1K26 H3K27

EZH2 ENSG00000106462 ENSP00000320147 writer H3K27me1 H3K27me2 H3K27me3 H1K25me1

HIC1 ENSG00000177374 ENSP00000314080 TF (transcription factor) -

SUZ12 ENSG00000178691 ENSP00000316578 remodeler -

Tabla 6. Interacciones entre las proteínas. Se muestra el nombre del gen de consulta y las interacciones de la proteína que codifica y con aquellas que tienen una puntuación (score) superior a 800, y la fuente de información de la interacción (columna fuente para interacciones en humano y columna transferida en interacciones que se han tomado por homología con otros organismos). Gen Interact_A Interact_B Tipo score Fuente Transferida EED ENSP00000263360 ENSP00000262238 binding 872 kegg_pathways

EED ENSP00000263360 ENSP00000311677 binding 969 grid kegg_pathways

EED ENSP00000263360 ENSP00000316578 binding 999 grid dip grid

EED ENSP00000263360 ENSP00000320147 binding 999 grid kegg_pathways dip

grid bind pdb kegg_pathways mint dip

EED ENSP00000263360 ENSP00000362592 binding 993 grid dip bind

EED ENSP00000263360 ENSP00000369427 binding 900 bind

EED ENSP00000263360 ENSP00000381331 binding 962 grid grid reactome kegg_pathways mint intact

EED ENSP00000263360 ENSP00000381840 binding 984 grid dip

EED ENSP00000263360 ENSP00000389381 binding 846 bind

EED ENSP00000263360 ENSP00000404658 binding 997 grid hprd grid bind pdb kegg_pathways mint dip

EZH2 ENSP00000320147 ENSP00000212015 binding 924 grid kegg_pathways

EZH2 ENSP00000320147 ENSP00000263360 binding 999 grid kegg_pathways dip

grid bind pdb kegg_pathways mint dip

EZH2 ENSP00000320147 ENSP00000316578 binding 999 grid dip grid mint intact dip

EZH2 ENSP00000320147 ENSP00000244050 binding 846 grid

EZH2 ENSP00000320147 ENSP00000262238 binding 951 grid kegg_pathways

kegg_pathways

EZH2 ENSP00000320147 ENSP00000302269 binding 987 grid hprd kegg_pathways

EZH2 ENSP00000320147 ENSP00000306043 binding 846 grid

EZH2 ENSP00000320147 ENSP00000311677 binding 845 grid

EZH2 ENSP00000320147 ENSP00000341280 binding 901 grid dip

EZH2 ENSP00000320147 ENSP00000370936 binding 845 grid

EZH2 ENSP00000320147 ENSP00000381331 binding 984 grid

EZH2 ENSP00000320147 ENSP00000381840 binding 961 grid intact

EZH2 ENSP00000320147 ENSP00000391901 binding 977 grid kegg_pathways

EZH2 ENSP00000320147 ENSP00000404658 binding 984 grid

19

EZH2 ENSP00000320147 ENSP00000359321 binding 944 grid kegg_pathways

grid kegg_pathways mint intact

EZH2 ENSP00000320147 ENSP00000362592 binding 984 grid grid mint intact

EZH2 ENSP00000320147 ENSP00000362649 binding 937 grid

EZH2 ENSP00000320147 ENSP00000369427 binding 917 grid mint intact

HIC1 ENSP00000314080 ENSP00000363003 binding 924 grid kegg_pathways

HIC1 ENSP00000314080 ENSP00000391901 binding 924 grid kegg_pathways

SUZ12 ENSP00000316578 ENSP00000235090 binding 969 grid kegg_pathways

SUZ12 ENSP00000316578 ENSP00000263360 binding 999 grid dip grid

SUZ12 ENSP00000316578 ENSP00000264010 binding 969 grid kegg_pathways

kegg_pathways

SUZ12 ENSP00000316578 ENSP00000320147 binding 999 grid dip grid mint intact dip

SUZ12 ENSP00000316578 ENSP00000341280 binding 901 grid dip

SUZ12 ENSP00000316578 ENSP00000362592 binding 994 grid dip grid

SUZ12 ENSP00000316578 ENSP00000369427 binding 986 dip grid

SUZ12 ENSP00000316578 ENSP00000381331 binding 962 dip grid

SUZ12 ENSP00000316578 ENSP00000381840 binding 984 grid dip grid

SUZ12 ENSP00000316578 ENSP00000391901 binding 845 grid grid mint intact

SUZ12 ENSP00000316578 ENSP00000404658 binding 993 grid dip grid mint intact dip

Las interacciones en morado indican las proteínas codificadas por los genes de la consulta, que en este caso interaccionan entre sí EED, EZH2 y SUZ12. Las interacciones coloreadas en verde indican que ENSP00000391901 interacciona con varias de las proteínas de la consulta inicial, siendo una proteína modificadora que interacciona con HIC1, con EZH2 y con SUZ12.

Tabla 7. Complejos proteicos a los que pertenecen las proteínas.

Gen de entrada

Id. proteína Ensembl Modificador/TF/Otros

Complejo proteico

HIC1 ENSP00000314080 TF -

PHF19 ENSP00000363003 Remodelador -

PHF1 ENSP00000391901 remodelador -

SUZ12 ENSP00000316578 remodeler EED-EZH2 complex Polycomb repressive complex 2 (PRC2)

EZH2 ENSP00000320147 writer Polycomb repressive complex 2 (PRC2) EED-EZH2 complex EED-EZH polycomb complex EED-EZH-YY1 polycomb complex Polycomb repressive complex 4 (PRC4)

EED ENSG00000074266 reader Polycomb repressive complex 2 (PRC2) EED-EZH2 complex EED-EZH polycomb complex EED-EZH-YY1 polycomb complex Polycomb repressive complex 4 (PRC4)

Se muestran los complejos proteicos a los que pertenecen las proteínas de la consulta inicial y de las proteínas modificadoras con las que interacciona HIC1. Los nombres escritos en azul son los que coinciden para EED, EZH2 y SUZ12.

20

7. Discusión y conclusiones

La nueva base de datos desarrollada en este trabajo (ProteInEpi) presenta características

combinadas, en cuanto a la información que proporciona y a los objetivos de su uso, de

las bases de datos mencionadas anteriormente sobre información epigenética

disponibles.

BioGraph (http://www.biograph.be/) proporciona redes de interacciones con el objetivo

de predecir o contrastar hipótesis sobre enfermedades asociadas al mal funcionamiento

de los genes que componen dichas redes, que incluyen interacciones que pueden ser

entre proteínas, DNA-proteínas, con compuestos químicos, etc. En cambio, en

ProteInEpi, la información está restringida a interacciones PPI con proteínas, o entre

proteínas, involucradas en regulación epigenética, concretamente en modificación de

histonas y remodelación de la cromatina.

Histome (http://www.actrec.gov.in/histome/) se centra, no solo en describir las enzimas

modificadoras de histonas, sino también en la descripción de las propias histonas,

centrando la información en humanos y con referencias a enfermedades asociadas. Pero

la clasificación de las enzimas modificadoras es incompleta. Mientras que proporciona

información curada manualmente de writers y de erasers, no lo hace de readers ni de

factores remodeladores. Para la elaboración de ProteInEpi, ésta ha sido una de las

fuentes de información, que se ha ampliado en cuanto a la clasificación de las enzimas.

En el caso de CR Cistrome (http://cistrome.org/cr/index.php), ya se proporciona una

clasificación completa (aunque escasa en cuanto lista completa de genes) y aporta una

descripción de las enzimas modificadoras de cromatina y remodeladores de cromatina,

además de datos de expresión génica, que permiten conocer el contexto genómico en

cuanto presencia de genes “epigenéticos” vecinos a un gen de interés y su

contextualización en cuanto a la expresión génica. Sin embargo, no proporciona las

interacciones de estas proteínas, más que haciendo sencillas menciones en la

descripción, mientras que en ProteInEpi se proporcionan dichos datos de manera que se

puedan representar en una red.

Por último, DAnCER (http://wodaklab.org/dancer/) proporciona información muy

completa de proteínas involucradas en la regulación epigenética, tanto conocida como

21

predicha, en el contexto de enfermedades. Proporciona descripciones de las proteínas,

sus interacciones, su pertenencia a complejos proteicos e información de proteínas

homólogas en otros organismos. Sin embargo, aunque la información en cuanto a

organismos es completa, hay que navegar en ella para centrarse en humanos. Tampoco

proporciona clasificaciones de las proteínas modificadoras, ni permite la descarga de las

interacciones para elaborar redes propias. En cambio, aunque ProteInEpi abarca un

rango de información menor, ya que no predice interacciones o nuevos modificadores,

se centra en interacciones de proteínas en humanos y permite el uso de los datos para

realizar redes propias, además de proporcionar información sobre la clasificación de los

modificadores.

En resumen, ProteInEpi tiene como novedad el hecho de que proporciona una lista de

enzimas modificadoras y remodeladores de cromatina clasificadas en writers, erasers y

readers en humanos y se proporcionan sus interacciones de una forma restringida,

permitiendo así añadir la información como niveles adicionales en redes de regulación

génica de distintos procesos altamente regulados mediante mecanismos epigenéticos,

como la diferenciación celular, el desarrollo del cerebro o la formación de la memoria.

Por otro lado, con el objetivo de ampliar la información contenida en la base de datos,

se podría añadir información sobre los llamados factores de transcripción pioneros y

sobre las interacciones de los ARN largos no codificantes, ya que ambos participan en

regulación epigenética.

Los factores de transcripción pioneros son aquellos que tienen capacidad de unirse a sus

dianas cuando se encuentran ocluidas en los nucleosomas o en ciertos estados de la

cromatina compactada. La mayoría de los factores de transcripción requieren del

reclutamiento y cooperatividad de proteínas de unión a los nucleosomas o a la

cromatina para poder activarse la transcripción, mientras que los factores pioneros son

independientes de dicha cooperatividad y preceden a otros factores de unión al ADN

[36, 37]. Hasta el momento, hay validados y predichos factores pioneros de

transcripción que tienen actividad en programación y reprogramación celular o en la

progresión de cáncer [13, 36, 38].

En cuanto a los ARN largos no codificantes, se sabe que interaccionan con ADN, ARN,

proteínas y/o combinaciones de los mismos, actuando como reguladores de la

22

organización de la cromatina y de procesos de transcripción y postranscripcionales[6].

Así pues, mediante el conocimiento de dichas interacciones se podría dilucidar el papel

de la interacción entre los mecanismos de regulación epigenética explicados y el de los

mecanismos de regulación mediante ARN no codificante. Por esta razón, recientemente

se ha creado una base de datos llamada EpimiR [39], que contiene descripciones de los

miARNs y sus interacciones con elementos de regulación epigenética. El objetivo de

dicha base de datos es proporcionar otro nivel de información sobre regulación en el

contexto de enfermedades humanas.

Por último, en cuanto la información almacenada en la base de datos, ésta podría

combinarse con la información de otras bases de datos públicas. Por ejemplo, en el caso

de los complejos proteicos podría combinarse la información con una sección reciente

de la base de datos de interacciones de IntAct, llamada Complex Portal [40], dedicada a

los complejos proteicos, ya que proporciona información más actualizada que la base de

datos utilizada (CORUM). Además, aunque en ProteInEpi se pretendía enfocar la

información en humanos, la adición de información referente a otros organismos, como

ratón, le daría un valor añadido con información sobre proteínas homólogas.

8. Bibliografía

1. Margueron R, Reinberg D: Chromatin structure and the inheritance of

epigenetic information. Nature reviews Genetics 2010, 11(4):285-296.

2. Zhang G, Pradhan S: Mammalian epigenetic mechanisms. IUBMB life 2014,

66(4):240-256.

3. Roy DM, Walsh LA, Chan TA: Driver mutations of cancer epigenomes.

Protein & cell 2014, 5(4):265-296.

4. Ho L, Crabtree GR: Chromatin remodelling during development. Nature

2010, 463(7280):474-484.

5. Rothbart SB, Strahl BD: Interpreting the language of histone and DNA

modifications. Biochimica et biophysica acta 2014, 1839(8):627-643.

6. Cao J: The functional role of long non-coding RNAs and epigenetics.

Biological procedures online 2014, 16:11.

7. Wu H, Wu X, Shen L, Zhang Y: Single-base resolution analysis of active

DNA demethylation using methylase-assisted bisulfite sequencing. Nature

biotechnology 2014, 32(12):1231-1240.

8. Rose CM, van den Driesche S, Meehan RR, Drake AJ: Epigenetic

reprogramming: preparing the epigenome for the next generation.

Biochemical Society transactions 2013, 41(3):809-814.

9. Arrowsmith CH, Bountra C, Fish PV, Lee K, Schapira M: Epigenetic protein

families: a new frontier for drug discovery. Nature reviews Drug discovery

2012, 11(5):384-400.

23

10. Janzen WP, Wigle TJ, Jin J, Frye SV: Epigenetics: Tools and Technologies.

Drug discovery today Technologies 2010, 7(1):e59-e65.

11. Gardner KE, Allis CD, Strahl BD: Operating on chromatin, a colorful

language where context matters. Journal of molecular biology 2011,

409(1):36-46.

12. Barth TK, Imhof A: Fast signals and slow marks: the dynamics of histone

modifications. Trends in biochemical sciences 2010, 35(11):618-626.

13. Okita K, Yamanaka S: Intracellular signaling pathways regulating

pluripotency of embryonic stem cells. Current stem cell research & therapy

2006, 1(1):103-111.

14. Choukrallah MA, Matthias P: The Interplay between Chromatin and

Transcription Factor Networks during B Cell Development: Who Pulls the

Trigger First? Frontiers in immunology 2014, 5:156.

15. Burns KH, Viveiros MM, Ren Y, Wang P, DeMayo FJ, Frail DE, Eppig JJ,

Matzuk MM: Roles of NPM2 in chromatin and nucleolar organization in

oocytes and embryos. Science (New York, NY) 2003, 300(5619):633-636.

16. Khare SP, Habib F, Sharma R, Gadewal N, Gupta S, Galande S: HIstome--a

relational knowledgebase of human histone proteins and histone modifying

enzymes. Nucleic acids research 2012, 40(Database issue):D337-342.

17. Wang Q, Huang J, Sun H, Liu J, Wang J, Wang Q, Qin Q, Mei S, Zhao C, Yang

X et al: CR Cistrome: a ChIP-Seq database for chromatin regulators and

histone modification linkages in human and mouse. Nucleic acids research

2014, 42(Database issue):D450-458.

18. Liekens AM, De Knijf J, Daelemans W, Goethals B, De Rijk P, Del-Favero J:

BioGraph: unsupervised biomedical knowledge discovery via automated

hypothesis generation. Genome biology 2011, 12(6):R57.

19. Turinsky AL, Turner B, Borja RC, Gleeson JA, Heath M, Pu S, Switzer T, Dong

D, Gong Y, On T et al: DAnCER: disease-annotated chromatin epigenetics

resource. Nucleic acids research 2011, 39(Database issue):D889-894.

20. Yun M, Wu J, Workman JL, Li B: Readers of histone modifications. Cell

research 2011, 21(4):564-578.

21. Bao Y, Shen X: SnapShot: chromatin remodeling complexes. Cell 2007,

129(3):632.

22. Zhang HM, Chen H, Liu W, Liu H, Gong J, Wang H, Guo AY: AnimalTFDB:

a comprehensive animal transcription factor database. Nucleic acids

research 2012, 40(Database issue):D144-149.

23. Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, Lin

J, Minguez P, Bork P, von Mering C et al: STRING v9.1: protein-protein

interaction networks, with increased coverage and integration. Nucleic acids

research 2013, 41(Database issue):D808-815.

24. Orchard S, Ammari M, Aranda B, Breuza L, Briganti L, Broackes-Carter F,

Campbell NH, Chavali G, Chen C, del-Toro N et al: The MIntAct project--

IntAct as a common curation platform for 11 molecular interaction

databases. Nucleic acids research 2014, 42(Database issue):D358-363.

25. Chatr-Aryamontri A, Breitkreutz BJ, Heinicke S, Boucher L, Winter A, Stark C,

Nixon J, Ramage L, Kolas N, O'Donnell L et al: The BioGRID interaction

database: 2013 update. Nucleic acids research 2013, 41(Database issue):D816-

823.

26. Bader GD, Betel D, Hogue CW: BIND: the Biomolecular Interaction

Network Database. Nucleic acids research 2003, 31(1):248-250.

24

27. Salwinski L, Miller CS, Smith AJ, Pettit FK, Bowie JU, Eisenberg D: The

Database of Interacting Proteins: 2004 update. Nucleic acids research 2004,

32(Database issue):D449-451.

28. Keshava Prasad TS, Goel R, Kandasamy K, Keerthikumar S, Kumar S,

Mathivanan S, Telikicherla D, Raju R, Shafreen B, Venugopal A et al: Human

Protein Reference Database—2009 update. Nucleic acids research 2009,

37(Database issue):D767-772.

29. Schaefer CF, Anthony K, Krupa S, Buchoff J, Day M, Hannay T, Buetow KH:

PID: the Pathway Interaction Database. Nucleic acids research 2009,

37(Database issue):D674-679.

30. Walsh JR, Sen TZ, Dickerson JA: A computational platform to maintain and

migrate manual functional annotations for BioCyc databases. BMC Systems

Biology 2014, 8(1).

31. Camon E, Magrane M, Barrell D, Lee V, Dimmer E, Maslen J, Binns D, Harte

N, Lopez R, Apweiler R: The Gene Ontology Annotation (GOA) Database:

sharing knowledge in Uniprot with Gene Ontology. Nucleic acids research

2004, 32(Database issue):D262-266.

32. Kanehisa M: The KEGG database. Novartis Foundation symposium 2002,

247:91-101; discussion 101-103, 119-128, 244-152.

33. Croft D, O’Kelly G, Wu G, Haw R, Gillespie M, Matthews L, Caudy M,

Garapati P, Gopinath G, Jassal B et al: Reactome: a database of reactions,

pathways and biological processes. Nucleic acids research 2011, 39(Database

issue):D691-697.

34. Ruepp A, Waegele B, Lechner M, Brauner B, Dunger-Kaltenbach I, Fobo G,

Frishman G, Montrone C, Mewes HW: CORUM: the comprehensive resource

of mammalian protein complexes--2009. Nucleic acids research 2010,

38(Database issue):D497-501.

35. Ponten F, Schwenk JM, Asplund A, Edqvist PH: The Human Protein Atlas as

a proteomic resource for biomarker discovery. Journal of internal medicine

2011, 270(5):428-446.

36. Iwafuchi-Doi M, Zaret KS: Pioneer transcription factors in cell

reprogramming. Genes & development 2014, 28(24):2679-2692.

37. Zaret KS, Carroll JS: Pioneer transcription factors: establishing competence

for gene expression. Genes & development 2011, 25(21):2227-2241.

38. Drouin J: Minireview: pioneer transcription factors in cell fate specification.

Molecular endocrinology (Baltimore, Md) 2014, 28(7):989-998.

39. Dai E, Yu X, Zhang Y, Meng F, Wang S, Liu X, Liu D, Wang J, Li X, Jiang W:

EpimiR: a database of curated mutual regulation between miRNAs and

epigenetic modifications. Database : the journal of biological databases and

curation 2014, 2014:bau023.

40. Meldal BH, Forner-Martinez O: The complex portal - an encyclopaedia of

macromolecular complexes. 2014.

25

ANEXO I

A continuación se resume el uso de los scripts utilizados para el parseo de la información y su

inserción en las tablas de la base de datos.

Las tablas se encuentran en el fichero tablas.sql. Hay un total de 12 tablas.

La primera tabla (ensgene_list) almacena la lista de genes con identificador de Ensembl. Los

genes se insertan desde un fichero que los contiene mediante el script insert_gene_list.pl.

La segunda tabla (context) almacena los datos de la expresión génica. Del fichero descargado de

THE HUMAN PROTEIN ATLAS que contiene la expresión de proteínas humanas, se filtraron

los datos para almacenar solamente la expresión de los genes de la lista almacenada, con el

script llamado cont_filt.pl. A continuación, con el script insert_context.pl se insertaron los datos

en la tabla.

La tercera tabla (ensprotein_id) almacena la conversión de los identificadores de Ensembl para

los genes y las proteínas. Una vez mapeados los genes en la herramiento online de BioMart, se

procesó el fichero para eliminar errores o redundancias y se insertó la información en la tabla

mediante el script insert_ensprotein_id.pl.

La cuarta tabla (interactions) contiene la información relativa a las interacciones. Del fichero

descargado de STRING, que contenía todas las interacciones en proteínas humanas, se filtraron

aquellas en las que participaban genes de la lista (con extrac_int_from_STRING.pl),

generándose un fichero del que se toma la información para introducirla en la base de datos (con

insert_interactions.pl).

La quinta tabla (modifiers) almacena la clasificación de los modificadores a partir de un fichero

creado manualmente, se procesa el fichero y se insertan los datos con el script

insert_modifiers.pl.

La sexta tabla (hgnc_alias_id) contiene la conversión del nombre del gen y sus sinónimos a

identificador de Ensembl. En este caso, la información se parseó directamente del fichero de

uniprot que contenía la información de todas las proteínas descargadas y se introdujo en la base

de datos, mediante insert_hgnc_id.pl.

Las séptima (acc_list) y octava(acc_uniprot_id) tablas son las que corresponden a la conversión

de los números de acceso de uniprot al identificador del gen en la nomenclatura de Ensembl. Se

tomaron los datos directamente del parseo de uniprot usando el script insert_into_acc_tables.pl.

26

En la tabla acc_list se introdujeron todos los accesion number de cada proteína y en la tabla

acc_uniprot_id se introdujeron los accession number para las proteínas que contenían varios,

siendo uno de ellos el principal y los demás asociados a la misma proteína.

Las novena (protein_info) y décima (gene_ontology) tablas contienen información sobre la

descripción de la proteína, organismo al que pertenece, estado, última actualización y los

términos de gene ontology asociados. Se parseó el fichero de uniprot y se insertó al información

directamente en las tablas, usando el script insert_protein_go.pl.

Las dos últimas tablas, complexes y complexes_subunits contienen todos los complejos

registrados en humanos que contiene la base de datos CORUM. La primera tabla contiene la

información básica de cada complejo (nombre, función, subunidades que lo componen, método

de purificación) y la segunda contiene una lista de todas las subunidades de todos los complejos,

indicando a qué complejo pertenecen. Los datos se procesaron y almacenaron usando el script

insert_context.pl.

Finalmente, el archivo retrieve.txt contiene una muestra de queries utilizadas en porstgreSQL

para la recuperación de datos de la base de datos.