evolución de las secuencias de adn
TRANSCRIPT
Evolución de las secuencias de ADN
Introducción
Hasta mediados de los ´80 del siglo XX, el estudio de la variabilidad se limitaba a la
identificación de alelos y como medida cuantitativa se usaba la Heterocigosidad. Sin
embargo, este estimador de la variación proporciona poca información, sólo nos dice si un
individuo tiene dos alelos iguales o diferentes. No brinda información acerca de las
diferencias entre alelos.
Todo empezó a cambiar con la amplificación por PCR y la secuenciación (técnica de Sanger)
de fragmentos de regiones específicas del genoma en muestras poblacionales.
Así se pudo contar con colecciones de secuencias de un mismo gen o región del genoma y
cuantificar el número de diferencias entre alelos o el número de sitios polimórficos a lo
largo de las secuencias y las relaciones genealógicas entre los alelos (secuencias).
El primer estudio, publicado en 1985, marcó la fundación de la genética molecular de poblaciónes y consistió
en la secuenciación de 11 alelos del locus Alcohol Deshidrogenasa (Adh) de Drosophila, 5 alelos Slow y 6 Fast
(definidos así por su movilidad electroforética). Este trabajo mostró que los alelos Slow, por un lado, y los Fast,
por otro, son familias de alelos que difieren entre sí en un sitio no sinónimo determinante de la diferencia en la
movilidad electroforética. Además, los alelos Slow se parecen más entre sí que con los Fast en cuanto a
variantes sinónimas.
Simultáneamente comenzó a desarrollarse la teoría de la Coalescencia, una teoría matemática que ofreció un
marco para interpreter los datos de secuencias de ADN y las propiedades de los árboles filogenéticos que
pueden generarse con ellas, que se llaman genealogías génicas o árboles de genes.
Los árboles de genes y la Teoría de la Coalescencia
Las bases de la genética de poblacionesclásica
1. El modelo de Wright-Fisher (WF)
S. Wright R.A. FisherLa teoría que
vamos a estudiarse basa en el
modelo de Wright-Fisher.
Considereremos
>>>˃
Modelo de Wright-Fisher (WF)
• La evolución de un locus neutral en una población de tamaño constante, con apareamiento al azar, y generaciones discretas.
• En cada generación t cada individuo tiene un número aleatorio de descendientes (mayor o igual a 0) en la generación t+1. Cadadescendiente es:• idéntico al parental con probabilidad 1-μ• o portador de una mutación
1. El modelo de Wright-Fisher (WF)
generation 0generation 1generation 2generation 3generation 4generation 5generation 6
1. El modelo de Wright-Fisher (WF)
Time
2. Las Genealogías y el árbol de la vida
2. Genealogías y el árbol de la vida
En las próximas diapositivas se muestra como se construye un árbolgenealógico que relaciona alelos de un locus de un segmento no-recombinante del cromosoma Y de 22 individuos de una muestratomada en la generación actual de una población.
EN el modelo cada hijo tiene un solo padre y cada padre puede tenermás de un hijo. A medida que vamos recorriendo la genealogía hacia el pasadoencontraremos ancestros communes entre dos individuos. Estoseventos se llaman coalescencia y resultan en la reducción de ancestros generación tras generación. Eventualmente, queda un solo ancestro – el Ancestro comúnMás Reciente (ACMR o Most Recent Common Ancestor).
La Genealogía de una muestraactual
Present
Time
Imaginemos una población grande. Millones de individuos y generaciones!!!
2. Genealogías y el árbol de la vida
Past
...
...
...:.
:.
:.
Present
Time
Se pueden simplificar mucho las cosas.Considerando solamente los ancestros de la muestra hasta el ACMR: el ARBOL GENEALOGICO de la muestra
2. Genealogías y el árbol de la vida
Present
Time
Ancestro común más reciente(ACMR)
2. Genealogías y el árbol de la vida
Tener un Ancestro Común y que ocurra una Mutación son procesos
aleatorios
2. Genealogías y el árbol de la vida
ARBOLES DE GENESAl comparar secuencias de ADN de una muestra
de individuos detectamos sitios polimórficos(segregantes) y sitios no variables. Además que algunos individuos comparten variantes y otros
no.
Esto permite inferior las relaciones genealógicasque podemos representar mediante árboles
111111111111111111111111111111111666666666666666666666666666666666001111111111112222222222222223333281224466788880112334667789991256561695878237899353097450863451080
ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCCGUI 1 ..............C..T...........C...GUI 2 ..............C..T...........C...GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..TGUI 4 ....A.T.TC.TGC...TG..........CT..GUI 5 C..C.......T.C...T...T.TT....C...GUI 6 C......G................T...T....GUI 7 ..TC.......T.C...T.T...TT.G..C...GUI 8 ....A.....C..C..GT.........T....TGUI 9 .........CC..C...T...............GUI 10 ....A......T.CC..T......T..T.C.TTGUI 11 ..............C..T..G........C...
Polimorfismos nucleotídicos (SNPs)
Si las mutaciones se mapean en la genealogía, pueden servir para dividirla en subgrupos (representados por colores diferentes)
Present
Time
mutation
Most recent common ancestor(MRCA)
TCGAGGTATTAACTCTAGGTATTAAC
2. Genealogies and the tree of life
Present
Time
mutation
Most recent common ancestor(MRCA)
TCGAGGTATTAACTCTAGGTATTAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor(MRCA)
TCGAGGTATTAACTCTAGGTATTAACTCGAGGCATTAACTCTAGGTGTTAACTCGAGGTATTAGCTCTAGGTATCAAC* ** * *
2. Genealogies and the tree of life
La estructura de la variación hereditaria actual de una población se puede pensar como la superposición de dos procesos aleatorios: el coalescente y la mutación
Resumiendo:
3. El coalescente
•El Tiempo de coalescencia se calcula recursivamente.•La Probabilidad de que dos alelos vengan del mismoprogenitor depende solo de N (tamaño poblacional).
• P (coalescencia) = , p (no coalescencia) = 1 -
• P(t) =
• E[TACMR] = 2N• 63% de los casos tienen TMRCA < 2N
N21
NN
t
21
211
1-
÷øö
çèæ -
La matemática es simple(ignorando la mutación y la recombinación)
N21
Tiempo al ACMR• El tiempo al ACMR de todos los linajes alélicos de la población es
T = 4N
el tiempo que tengo que recorrer hacia el pasado para encontrarel ACMR de la población depende del tamaño efectivo
3. El coalescente
3. The coalescent
A mayor N, el árbol es más largo, más variabilidad.
Población grande Población chica
Tiempo
Tiempo
Coalescencia y mutaciones neutras
Comparando las secuencias podemos calcular: 1) el número de bases en que difieren dos alelos de la población y 2) inferir las relaciones entre alelos, es decir reconstruir el árbol de genes
Presente
Tiempo
ACMR
3. El coalescente
La lógica del coalescente es la siguiente:
Si en cada linaje las mutaciones ocurren a una tasa µ por generación,
entonces dos alelos que compartieron un ancestro común tCA generaciones
en el pasado se habrán acumulado µ x tCA mutaciones en cada linaje.
Entonces, la esperanza del número de diferencias entre dos alelos
cualesquiera van a ser: 2 µ x tCA
En resumen: Qué parámetros importan del proceso
T = suma de la longitud de todas las ramas de la genealogíaE (T) = 4N (tiempo al ACMR)S = número de mutaciones en la genealogía o número de sitios segregantes)E(S) = µ E(T) ===> S = 4NµDonde θ = 4N µ (recordar heterocigosis en el equilibrio mutación/deriva)(aquí es donde se encuentran la Teoría de la coalescencia y la TN)
El número total de mutaciones o de sitios segregantes en la genealogía (S) es
un estimador de θ
ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCCGUI 1 ..............C..T...........C...GUI 2 ..............C..T...........C...GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..TGUI 4 ....A.T.TC.TGC...TG..........CT..GUI 5 C..C.......T.C...T...T.TT....C...GUI 6 C......G................T...T....GUI 7 ..TC.......T.C...T.T...TT.G..C...GUI 8 ....A.....C..C..GT.........T....TGUI 9 .........CC..C...T...............GUI 10 ....A......T.CC..T......T..T.C.TTGUI 11 ..............C..T..G........C...
El número de mutaciones o sitios segregantes es el parámetro central: ¿Cómo lo calculamos?Las/los contamos.¿Cómo? Contabilizando el número de sitios polimórficos
Otro estimador de θ:
𝜋: Heterocigosidad media por sitio (recordar: H=2pq) que equivale al número medio de diferencias entre pares de secuencias
𝜋 : dependiente de las frecuencias de las variantes que segregan en cada sitio
Si en un sitio p=0,9 y q=0,1 H=0,18 Si en otro sition p=q=0,5 H=0,5
Los sitios con frecuencias intermedias APORTAN MÁS a la heterocigosidad esperada
que los sitios con variants en baja frecuencia
Estimadores del parámetro mutacional q• Watterson: S (número de sitios
segregantes)
q = S / ai
• Tajima: número promedio de diferenciasentre alelos
q = P = (n / n - 1) S pi pj pij
Ambos son estimadores del parámetro mutacional. Entonces, si se cumplen los supuestos del modelo WF:1) no segregan variantes que afecten el fitness (neutralidad)2) el tamaño efectivo se mantuvo constanteambos estimadores deberían ser iguales.
Si alguno de los supuestos no se cumple () van a ser diferentes ya que se comportan de diferente manera bajo selección o cambios demográficos
¿Qué pasa cuando no se
cumplen las suposiciones del
modelo W-F?
A) Aparecen mutaciones no neutras. Los distintos de tipos de selección dejan huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).
Ø la SN positiva que lleva a la fijación de una variante y acorta el tiempo al ACMR.
Ø En cambio la SN equilibradora que tiende a preservar alelos por mas tiempo que la DG (4N),
Ø La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.
B) N no constante Los eventos demográficos huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).
• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)
• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado
• La reunión de dos poblaciones alopátricas deja una huella sobre el genoma que consiste en un exceso de variantes en frecuencias intermedias
La selección positiva
Barrido Selectivo (Hitchhiking)• El rápido aumento de una variante ventajosa ( )
por selección positiva (direccional) puede reducir los niveles de variación neutra en regiones ligadas.
• La variante ventajosa aumenta rápidamente su frecuencia hasta alcanzar la fijación (el tiempo que lleva esto depende de la ventaja que tenga respecto de los que portan la variante ventajosa)
• Las nuevas variantes que ocurran serán raras (frecuencias cercanas a 1/2N) ya que el corto tiempo (< 4N) desde el barrido no habrán tenido tiempo de incrementar su frecuencia
Selección Positiva: la selección sobre una variante ventajosa (enrojo) produce “un Barrido Selectivo”
A--T---T-
T-A------
C------G-
AT-------
A--------
C--G-G-G-
G--A-----
G---CCC--
T--------
A-T------
T--------
T--------
G--------
A--------
A--------
G--------
G--------
G--------
T--------
A--------
No Recombination
3. Selección a nivel molecular
Sitios Sitios
Alelos
3. Selección a nivel molecular
Selección Positiva:¿Qué implican las regiones con huellas de selección positiva?
• Cambio adaptativo. Novedades evolutivas.
• si es en una región codificante Ka/Ks > 1
Genealogías de genes bajo modelos alternativos
Un barrido selectivo deja una huella en la variación que consiste en un exceso de
variantes raras o en baja frecuencia respecto de lo esperado bajo la TN
1) la SN positiva que lleva a la fijación de una variante disminuye el Ne y por lo tanto acorta la longitud del árbol.
2) La SN equilibradora: tiende a preservar alelos por mas tiempo que la DG, entonces habrá linajes del árbol que persistirán por mas tiempo que 4N, alargando las ramas del árbol
3) La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.
Selección equilibradora2. Selección y polimorfismo
La selección equilibradora
• Tiende a preservar alelos por un tiempo mayor a 4N generaciones, que es lo que persiste en promedio un alelo por deriva.
Þ los tiempos de coalescencia son mayores y las ramas son más largasÞ En Genética Evolutiva a más tiempo más variación
La persistencia de dos alelos por tiempos mayores a 4N se traduce en más variación y
un exceso de variantes en frecuencia intermedia respecto a lo esperado bajo la TN
Selección equilibradora
Selección purificadora. Elimina la variabilidad ligada a variantesdesventajosas (en rojo)
A--T---T-
T-A------
C------GG
AT-------
A--------
C--G-G-G-
G--A-----
G---CCC--
T--------
A-T------
A--T-----
T--------
C--------
AT-------
A--------
C--G-G---
G--A-----
G---CCC--
T--------
A--------
No Recombination
3. Selección a nivel molecular
Sitios Sitios
Alelos
3. Selección a nivel molecular
Selección purificadora:• Muestra lo que no puede cambiar (conservado)
• genes relacionados con enfermedades• Detección de nuevas funciones
¿Qué pasa cuando no se
cumplen las suposiciones del
modelo W-F?
B) N no constante Los eventos demográficos dejan huellas diferentes en en los patrones de variación neutra.
• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)
• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado
• La reunión de dos poblaciones alopátricas deja una huella sobre el genoma que consiste en un exceso de variantes en frecuencias intermedias
Algunos eventos demográficos (cambios en el tamaño efectivo) dejan huellas en el genoma que pueden confundirse con SN
Expansión poblacional
Como la población se expandió en el pasado reciente las ramas del árbolposteriores a la expansión son más largas.
Vamos a tener un exceso de variantes en baja frecuencia (porque no han tenido tiempo de hacerse más frecuentes) respecto de lo esperado bajo la TN
4. El coalescente con selección
N
t
å=Pij
ijji xx p
å-
=
= 1
1
1n
i
W
i
Sq
µqq eW N4=¹P¹
4. El coalescente con selección
Bajo selección positiva o expansión poblacional, el estimador basado en S es más grande que P, porque hay exceso de mutaciones raras (en baja
frecuencia)
¿Cómo sabemos si el exceso de variantes raras es compatible con lo esperado bajo la teoría Neutralista?
La prueba de Tajima (D) compara P y S y determina si la distribución de frecuencias de las variantes es compatible con la
neutralidadP= número de diferencias entre pares de secuencias
S= número de sitios segregantes
4. El coalescente con selección
( ) ( )SS
W
W
VarD
VarD
qqq
qˆˆ
ˆˆ
-
-=Þ
-P-P
=P
P
Bajo neutralidad D = 0
P y S se comportan de diferente manera frente a selección positiva y expansiones demográficas
D < 0
µqq eW N4==P=
mtDNA humano: exceso de variantesraras
• Ingman et al. (2000) 52 secuencias de mtDNA completas• 521 sitios segregantes
23.28.313.1152.44
8.31)(V̂
3.115/52.42.44
52
52
-=-
=
=
===p
D
d
aSa
Pronto responderemos a esta pregunta
Se trata de una Expansión poblacional o selección positiva?
0
20
40
60
80
100
120
140
160
180
200
1 11 21Rare allele frequency
No. sites
Observed
Expected
4. El coalescente con selección
4. El coalescente con selección
Selección equilibradora es equivalente a la subdivisión poblacional. En este caso el D de Tajima es positivo porque
habrá un exceso de variantes en frecuencia intermedia
( )W
W
VarD
qq-P
-P= D > 0
4. El coalescente con selección
¿Cómo sabemos si el estadístico D de Tajima es significativo?¡¡¡Usamos el coalescente!!!
Se corren simulaciones de coalescencia bajo neutralidad, usando N y S estimados a partir de los datos. En cada simulación se calcula un
valor de D y así obtenemos su distribución.
¿Expansión poblacional o selección positiva?¿Mezcla de poblaciones o selección equilibradora?
La teoría dice que los cambios demográficos afectan la variación genómica global, en cambio el efecto de la selección, positiva o equilibradora es más local.
¿Cómo diferenciamos procesos adaptativos de eventos demográficos?
Aplicación de la coalescencia
El origen del hombre moderno
Posibles ”outliers” respecto del valor másfrecuente:Si la separación de las poblaciones es reciente, el tiempo de coalescencia (tc) de los alelos es por lo general mayor o igual al tiempo de división de las poblaciones (tP) , sin embargo, en algunos casos
tc < tPdebido a pérdida aleatoria de alelos.
En regions donde hay polimorfismos equilibrados: tc >>> tP
Cuestionario orientativo1) ¿Qué es un árbol de genes, qué lo diferencia de los árboles de especies2) ¿Qué es la coalescencia? 3) Definir ancestro común más cercano y tiempo de coalescencia4) ¿Cómo se integran las teorías neutralista y de coalescencia?5) ¿En qué se diferencia, cuantitativamente, la variación neutra entre
poblaciones de diferente tamaño?6) ¿Qué efectos pueden tener las variantes adaptativas sobre la variación
neutra ligada?7) ¿Qué efecto pueden tener los eventos demográficos (expansión
poblacional o mezcla de poblaciones?8) ¿cómo diferenciamos los efectos de la selección de los eventos
demográficos?