varios métodos pueden llevar a múltiples árboles igualmente óptimos las relaciones ... · •...

Post on 28-Aug-2020

8 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Múltiples árboles óptimos

Varios métodos pueden llevar a múltiples árboles igualmente óptimos

Las relaciones comunes a todos los árboles óptimos pueden resumirse mediante los árboles consenso

Métodos de Consenso• Un árbol de consenso combina la información contenida en un

conjunto de árboles fundamentales (árboles fundamentales: cladogramas obtenidos del análisis cladístico

de un conjunto de datos)

• Métodos de consensoEstrictoCompromiso

• Los métodos de consenso se pueden usar sobre múltiples árboles de un mismo análisis, u obtenidos a partir de análisis múltiples

• Se construye un árbol que contiene solo los clados presentes en todos los árboles (=árboles fundamentales)

• Otras relaciones (la que no estan en todos los árboles fundamentales) se muestran como politomías

CONSENSO ESTRICTO

A B C D E F G A B C E D F G

DOS ÁRBOLES FUNDAMENTALES

A B C D E F G

ÁRBOL DE CONSENSO ESTRICTO

CONSENSO ESTRICTO

Problema de los consensos estrictos

- Taxones inestables: ocupan múltiples posiciones posiblesDifícil interpretación de los resultados

1778 MPTs

CONSENSO REDUCIDOS (Wilkinson, 1994)

CONSENSO REDUCIDOS

CONSENSO REDUCIDOS

Posible estrategia de análisis

A posteriori del análisis con TODOS los taxones

CONSENSO ESTRICTO

CONSENSOS REDUCIDOSMAXIMUN AGEEMENT SUBTRESS

NO HAY RAZÓN PARA EXCLUIR A PRIORI DEL ANÁLISIS DE TAXONES CON ALTO PROCENTAJE DE DATOS FALTANTES

IterPCR (Pol & Scapa, 2009) implementado en TNT

Posible estrategia:- Detección de taxones inestables- Eliminación de los taxones inestables - Consenso reducido

14 MPTs of 173 steps (CI = 0.420 , RI = 0.599)

14 MPTs of 173 steps (CI = 0.420 , RI = 0.599)

Consenso estricto reducido

IterPCR Taxon inestable:Pervushoviasaurus

Resolución deEste clado

ÁRBOLES DE COMPROMISO

Mayoría clados que se repiten en más del 50% de losárboles fundamentales

Componentes combinables: clados presentesen al menos uno de los árboles pero compatible (sin conflicto)en los restantes árboles

A B C D E F G A B C E D F G

A B C E D F G

Frecuencia de losclados

A B C E F D G

100

66

66

66

66

ÁRBOLES DE COMPROMISO

ESTRATEGIAS DE ANÁLISIS

• Análisis separado, de consenso o de congruencia taxonómica

• Análisis simultáneo o combinado

• Análisis combinado condicionado

Análisis de conjuntos de datos

Análisis separado

• Analizar por separado los conjuntos de datos y una vezobtenidos los cladogramas se obtiene el árbol de consenso

Análisis simultáneo• Se realiza una única matriz y se analizan conjuntamente

Análisis combinado condicional• 1º un análisis separado, 2º análisis de congruencia, 3º eventualcombinación de los datos

Causas de incongruencia Biológicas

Metodológicas

• Diferentes tasas evolutivas de los genes• Hibridación o evolución reticulada• Trasferencia horizontal

• Errores de muestreo y determinación errónea dehomologías

• Errores en la secuenciación• Diferentes alineaciones•Aplicación de distintas estrategias de análisis de datos

Medidas de incongruencia

•Incongruence lenght difference (ILD)ILD = L (x+y) – (Lx + Ly)

L (x+y): matriz combinadaLx , Ly: matrices separadas

Medidas de incongruencia

•Test estadístico de incongruencia

P = 1- S (W+1)

- Primeramente se calcula el ILD- Se lo calcula sobre conjuntos de datos mezclados al azar(random partition technique)

S = número de particiones al azar que dieron valores menores al de la matriz original

W = número de particiones al azar

• BOOTSTRAP

• JACKKNIFE

• SOPORTE DE BREMER (DECAY INDEX)

Técnicas de re-muestreo

Soporte de los clados

• BOOTSTRAP Remuestreo con reposición

Obtención de matriz re-muestreada o pseudoréplica

Por cada matriz re-muestreada se obtiene un árbol

Grado de conflicto entre los árboles se mide mediante el consenso de mayoría

Porcentaje de las veces que aparecen los grupos en todos los

arboles comparados, se toma como una medida de soporte

Procedimiento Bootstrap

El soporte de cada rama interna se expresa como porcentajes de replicatas.

• Jackknife

Las matrices son re-muetreadas pero sin reposición

• El valor de jackknife indica el porcentaje de ocurrenciade una rama interna o clado, en los cladogramasresultantes de las matrices re-muestreadas

• Se diferencia de las técnicas de Bootstrap en que no hay reposición

• Soporte de Bremer (“Decay index” )

• Mide cuántos pasos extras se necesitan para queun clado en particular colapse

• Para un clado el valor del IB = la diferencia depasos entre a) el árbol más corto en que el clado encuestión no aparece y b) el árbol más corto

• El valor mínimo de apoyo es 1(solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0)

• A mayores valores mayor apoyo

CO EVOLUCIONBIOGEOGRAFÍA

ASOCIACIONES HISTORICAS

organismo

organismoáreagen parásito

hospedador

Genes y organismos Parásitos y hospedadores Organismos y áreas

CoespeciaciónCo-divergencia

duplicación Transmiciónhorizontal

Pérdida(“sorting”)

CO EVOLUCION

Codivergencia

Hospedero Parásito

Divergencia del parásito ocurreen respuesta a la divergencia del hospedero

Hospedero Parásito

Divergencia de la especie aen respuesta a la divergencia delhospedero A y subsecuente colonizaciónde nuevos hospederos

Aquino Martines, 2016

Estudios co-evolutivos Usando aproximaciones filogenéticasMartinez-Aquino, 2016

• Distribución natural de P. t. troglodytescoincide con las áreas endémicas del HIV-1 grupos M,N,O (infecta humanos)

• P.t. troglodytes reservorio primariodel HIV-1 y fuente de al menos 3infestaciones independientesa poblaciones humanas

Nature, 1999

Análisis filogenéitco del virus SIVcpzUS. Y otros virus de primates

Árbol filogenético(máxima verosimilitud)de los virus HIV y otrosrelacionados

HIV-1 (0)

HIV-2

HIV-1 (N)

HIV-1 (M)

HIV-2

Infectan humanos

2 MPTs172 stepsCI: 0.42, RI: 0.602

Plat

ypte

rygi

inae

“Oph

thal

mos

aurin

ae”

0

5

10

15

20

25

Phylogenetically corrected

Taxic diversity

DATOS MOLECULARES

Punto de partida: conjunto de secuencias de proteínas o ADN homólogas (=alineadas)

CLUSTAL W (1.74) multiple sequence alignment

Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTAGallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATGBos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATGHomo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGMus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGRattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG

****** **** ********* * *** * * *** * * *

VENTAJAS DE LOS DATOS MOLECULARES

PERMITEN ESTUDIAR EL GENOMAGRAN CANTIDAD DE DATOS“MAYOR OBJETIVIDAD”

DESVENTAJAS DE LOS DATOS MOLECULARES

PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA(en relación con los invariables)

CARACTERES INFORMATIVOS (proporción aun más baja)- DETERMINACION DE HOMOLOGÍAS

DESVENTAJAS DE LOS DATOS MOLECULARES

PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA(en relación con los invariables)

CARACTERES INFORMATIVOS (proporción aun más baja)- DETERMINACION DE HOMOLOGÍAS

Especie Secuencia de Aminoácidos Humano DAPGHRDFIKNMITGTSQADCAVLIV Tomate DAPGHRDFIKNMITGTSQADCAVLII Levadura DAPGHRDFIKNMITGTSQADCAILII Archaea DAPGHRDFVKNMITGASQADAAILVV Bacteria DCPGHADYVKNMITGAAQMDGAILVV Letras (conservadas)

D-PGH-D--KNMITG--Q-D---L--

SITIOSCONSERVADOS

Newly Expanded Tree of Life

Datos moleculares

• Secuencias de proteínas

• Secuencias de ADN de distintos genes

ADN “Fingerprinting”

ADN altamente repetitivo

Genes de copia única (nucleares)

Genes de copia múltiple

Ribosomales (conservados: plantas18S, 26S; animales 18S, 28 S) Taxones superiores

Mitocondriales (tasa mutación rápida en animales: COI, COII) → Especies próximas

Estudios de FilogeografiaEspecies partenogenéticas

Cloroplasto (ADN muy conservado: rbcL, rbcS) → Taxones superiores

ADN mitocondrial(ADNm)

•- Múltiples copias, se heredan generalmente por víamaterna (gameta femenina porta mitocondrias), generalmente hay homoplasmia (todas las mitocondrias son iguales) pocas regiones no codificantes

ESTABLECIMIENTO DE HOMOLOGÍAS

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS

ESTIMACION FILOGENÉTICA

PRUEBAS DE CONFIABILIDAD DE LA TOPOLOGÍA INFERIDA

INTERPRETACIÓN EVOLUTIVA Y APLICACIÓN DE LAS FILOGENIAS

PROTOCOLO BÁSICO PARA UN ANÁLSIS FILOGENÉTICO DE SECUENCIAS MOLECULARES

• secuencias ortólogas

e.g. Clustal

e.g. NJ, PARASIMONIA, ML, Bayesiano

bootstrap, probabilidad posterior

HOMOLOGIA A NIVEL MOLECULAR

Secuencias de ADN

Test de SIMILTUD

Test de CONJUNCION

Test de CONGRUENCIA

EQUIV.MORF

ORTOLOGA + + + HOMOLOGIA

PARALOGA + - + HOMONOMIA

XENOLOGA(transferenciahorizontal)

+ + - PARALELISMO

HOMOLOGIA A NIVEL MOLECULAR

Dos secuencias son homólogos si tienen un antecesor común

Dos secuencias son ortólogas si divergieron luego de un evento de especiación

Dos secuencias son parálogas si divergieron luego de un evento de duplicación

Secuencias ortólogas

Secuencias Parálogas

HOMOLOGIA A NIVEL MOLECULAR

SECUENCIAR

DETERMINAR EL ORDEN EXACTO DE LOS PARES DEBASES EN UN SEGMENTO DE ADN

La alineación es una hipótesis de homologíaposicional entre bases/aminoácidos

Métodos de alineamiento múltiple de secuencias

3 métodos principales

• Manual• Automatizado (computarizado)• Combinado

ALINEACIÓN DE SECUENCIASDIFERENCIA EN LA LONGITUD DEBIDA A MUTACIONES INDEL (INSERCIONESY DELECIONES): AGREGADO O PERDIDA DE BASES

INCORPORACIÓN DE GAPS

SE PUEDE ASIGNAR COSTOS DEFERENCIALES:

• A LAS SUSTITUCIONES Y A LOS GAPS (e.g. 1 y 2 respectivamente)• O A LAS TRANSICIONES O TRANSVERSIONES• COSTO DIFERENCIAL A LOS GAPS MÁS LARGOS

Alternativas de alineación

a) ACTTCCGAATTTGG - CTACT - - CGA- - TTG - CCT

En esta alineación no se registran sustituciones, pero hay 4 gaps.b) ACTTCCGAATTTGGCT

ACTC - - - GATT- GCCTEn esta alineación se registran 3 sustituciones (4º, 8º y 14º posición) y 2

gaps.

c) ACTTCCGAATTTGGCTACTC - - - - -GATTGCCT

En esta alineación se registran 4 sustituciones (4º, 9º, 10º y 14º posición) y 1 gap.

Alineamiento progresivoFeng and Doolittle in 1987

• Esencialmente es un método heurísticoy, como tal, no garantiza encontrar el alineamiento ‘óptimo’

• Requiere n-1 pares de alineamientos como punto de partida.

• Utiliza un árbol Neighbor-joining(guide tree)

• Una de las implementaciones más frecuentes es a través de Clustal

Alineamiento múltiple

Análisis Bayesiano-MrBayes

• Noción de probabilidades a posteriori: probabilidades que son estimadas, según un modelo elegido, luego de tener un conocimiento acerca de los datos.

• Existe una serie de métodos numéricos para calcular la probabilidad a posteriori de los árboles.

• Se construye un árbol al azar o se elige un árbol determinado.• Se evalúa ese árbol según el modelo elegido.• Se genera un nuevo árbol, y si es mejor que el anterior se acepta.• Cada tantas generaciones (especificadas por el usuario) se registra el árbol y

su verosimilitud en un archivo.• Se calcula el consenso de los árboles registrados.• Se dibuja el árbol de consenso, con las longitudes de sus ramas.

Algunos inconvenientesCambios múltiples (múltiple hits)

C AC G T A

1 2 3

1

Seq 1

Seq 2

Algunos inconvenientesAtracción de ramas largas (long branch attraction)

LAS TASAS DE CAMBIO EN LAS TERMINALES DEL CLADOGRAMA ES MUCHO MAYOR QUE EN EL RESTO DEL ÁRBOL, DE FORMA TAL QUE LAS RAMAS LARGAS TENDERÍAN A ATRAERSE LLEVANDO A FILOGENIA ERRÓNEAS

top related