islas cpg y metilación - bioinfo2.ugr.es · propiedades de las islas cpg 1. son ricas en g+c...

17
ISLAS CpG Y METILACIÓN Cristina Gómez Martín Genómica Computacional y Bioinformática Departamento de Genética, Facultad de Ciencias, Universidad de Granada Laboratorio de Bioinformática, Instituto de Biotecnología, Centro de Investigación Biomédica

Upload: others

Post on 04-Sep-2019

13 views

Category:

Documents


0 download

TRANSCRIPT

ISLAS CpG Y METILACIÓN

Cristina Gómez Martín Genómica Computacional y Bioinformática Departamento de Genética, Facultad de Ciencias, Universidad de Granada Laboratorio de Bioinformática, Instituto de Biotecnología, Centro de Investigación Biomédica

Metilación del ADN

La metilación es la adición de un grupo metilo (-CH3) a una molécula y se observa tanto en el ADN como en ARN y proteínas.

Proceso de metilación de la citosina en el ADN

En eucariotas se da principalmente en dinucleótidos CG.

Como norma general: El 70-80 % de las CpGs

están metiladas

Funciones de la metilación

• Es clave en el desarrollo embrionario • Inactivación del cromosoma X • Impronta génica: Mantenimiento en la expresión específica de un alelo. • Splicing alternativo • Silenciamiento de elementos repetidos: centrómeros • Los grados de metilación de la región promotor de un gen y en el

cuerpo génico influye en los niveles de expresión.

Hay proteínas que se unen específicamente al DNA metilado (Ej: MECP2) y otras que se unen específicamente a islas CpG no-metiladas (la metilación bloquea la unión)

Patrones de metilación

Los patrones de metilación (distribución a lo largo de la secuencia) no son iguales en distintos eucariotas •En hongos solo el DNA repetido se metila. •Los mayores niveles de metilación en plantas (hasta el 50% de todas las citosinas) – metilación de contextos non-CpG en elementos transponibles •En general encontramos un mosaico de metilación (regiones metiladas y intercaladas regiones no-metiladas).

DNA methylation landscapes: provocative insights from epigenomics. Mihe M. et al Nature Reviews Genetics 9, 456-476 (June 2008)

En los genomas de mamífero predominantemente se metilan los

dinucleótidos CpG, con excepción de regiones cortas llamadas islas CpG.

Islas CpG

70-80 % CG TG

Desaminación espontanea de metil-citosinas

Frecuencia de CpG 5 veces más baja de la esperada

Las CpG permanecen solamente en los sitios en que no se metilan: Islas CpG

Propiedades de las Islas CpG

1. Son ricas en G+C (ratio O/E alto) y tienen longitudes alrededor de 1kb 2. Entre el 50 y el 70% de los genes tienen una isla CpG asociada a sus promotores. 3. Casi todos los genes “housekeeping” (se expresan en todos los tejidos) tienen una isla asociada a

su promotor pero solo la mitad de los genes específicos la presentan. 4. En los promotores de los genes: Cuando se metilan dan lugar a una inhibición de la transcripción. 5. En el cuerpo génico: Cuando se metilan dan lugar a estabilización de la transcripción 6. En algunas condiciones fisiológicas o patológicas se pueden ver cambios en el estado de la

metilación: cáncer

Existen tanto métodos experimentales como computacionales para detectar islas CpG

Clasificación de las Islas CpG

Constitutivamente no-metiladas (asociadas a “Housekeeping genes”) ~100% de los genes domésticos tienen alguna isla asociada

Diferencialmente metiladas (genes tejido-específicos) ~50% “Tejido específicos” isla asociada

Parcialmente metiladas (genes improntados)

Barturen G. 2014. Regiones genómicas implicadas en la metilación diferencial del ADN. Tesis Doctoral, Universidad de Granada

DMIs: Islas CpG (CGIs)diferencialmente metiladas MIs: CGIs constitutivamente metiladas UIs: CGIs constitutivamente no metiladas NAs: No cumplen requisitos otras clases

Métodos de predicción de islas: Ventanas deslizantes

From Takai and Jones (2002)

Gran número de parámetros arbitrarios • Proporción CpGs observados/esperados • %GC • Longitud • Longitud de ventana • Salto • Distancia para fusionar proto-islas

Ejemplo: CpGplot

Métodos de predicción de islas: clusterización

Secuencia de DNA

Por ejemplo, para dm=5: 10,5,5,3,1,8,23,34,21,12,2,5,8,6,9,...N-1

Establecemos una distancia umbral dm Si di ≤ dm Establecemos un cluster

Lista de cluster de CpG con coordenadas, longitud y nº de

CpGs

Cluster estadísticamente significativo ≡ CpG island

Calcular propiedades estadisticas de la secuencia : G+C content, O/E ratio, CpG density, intra-clustering of CpGs, overlap with Alus, PhastCons etc.

Secuencia binaria:

00010000101000000101000110000100010101000011

CpG -> 1; Otros-> 0

Se determina la distancia (d) de cada CpG al siguiente aguas abajo en la secuencia de DNA:

10,5,5,3,1,8,23,34,21,12,2,5,8,6,9,...N-1

Asignar un pvalor a cada cluster

¿Qué distancia uso? Si se distribuyeran al azar seguiría una distribución geométrica

𝑃 𝑑 = (1 − 𝑝)𝑑−1𝑝 P(d), probabilidad de encontrar una distancia d entre CpGs adyacentes y

p la probabilidad de encontrar un CpG en la secuencia.

Las distancias cortas observadas se encuentran sobre-representadas en el genoma, por encima de lo esperado (Existen “Clusters de CpGs”).

El cruce entre observada y esperada se utiliza como distancia para agrupar CpGs.

WordCluster - Michael Hackenberg, Pedro Carpena, Pedro Bernaola-Galván, Guillermo Barturen, Ángel M. Alganza and José L. Oliver. 2011. Algorithms for Molecular Biology 6:2

WordCluster - Michael Hackenberg, Pedro Carpena, Pedro Bernaola-Galván, Guillermo Barturen, Ángel M. Alganza and José L. Oliver. 2011. Algorithms for Molecular Biology 6:2

Cromosoma 16 Mediana: 31pb Intersección genómica: 33pb

Cromosoma 5 Mediana: 49pb Intersección genómica: 33pb

¿Cómo asigno la significación?

¿Cual es la probabilidad de encontrar un cluster con N CpGs y longitud X en una distribución al azar? Binomial Negativa

WordCluster - Michael Hackenberg, Pedro Carpena, Pedro Bernaola-Galván, Guillermo Barturen, Ángel M. Alganza and José L. Oliver. 2011. Algorithms for Molecular Biology 6:2

Detectar la metilación

Problemas para detectar la metilación: 1) Hibridación es insensible frente a la metilación: no se pueden usar chips de DNA 2) La PCR elimina la información acerca del estado de metilación

TRATAMIENTO CON BISULFITO SÓDICO

CITOSINA METILADA BISULFITO

CM C

CITOSINA NO METILADA BISULFITO

C T

C C CITOSINA METILADA

T C CITOSINA NO METILADA

Ventajas: • Se obtiene información de metilación para cada citosina y no solo valores medios para una región como ocurre con muchos otros métodos • Se puede detectar la metilación en todos los contextos y no solo CpG Reto: • Re-secuenciar un genoma entero • Alinear miles de millones de secuencias cortas (reads) Problemas: Distinguir entre la acción del bisulfito y : 1. Errores de secuenciación 2. SNV (Single Nucleotide Variation) : Un polimorfismo C/T sería detectado como una citosina no metilada

Los valores de metilación oscilan entre 0 y 1, dependiendo de la proporción entre los reads que indiquen la existencia de una citosina metilada y los que indiquen una

ausencia de metilación.

NGSmethDB

Stefanie Geisen, Guillermo Barturen, Ángel M. Alganza, Michael Hackenberg and José L. Oliver. 2014. Nucleic Acids Research, Vol. 42, Database issue D53–D59

http://bioinfo2.ugr.es/NGSmethDB/

Interfaz de herramientas de NGSmethDB

Stefanie Geisen, Guillermo Barturen, Ángel M. Alganza, Michael Hackenberg and José L. Oliver. 2014. Nucleic Acids Research, Vol. 42, Database issue D53–D59

http://bioinfo2.ugr.es/NGSmethDB/