Múltiples árboles óptimos
Varios métodos pueden llevar a múltiples árboles igualmente óptimos
Las relaciones comunes a todos los árboles óptimos pueden resumirse mediante los árboles consenso
Métodos de Consenso• Un árbol de consenso combina la información contenida en un
conjunto de árboles fundamentales (árboles fundamentales: cladogramas obtenidos del análisis cladístico
de un conjunto de datos)
• Métodos de consensoEstrictoCompromiso
• Los métodos de consenso se pueden usar sobre múltiples árboles de un mismo análisis, u obtenidos a partir de análisis múltiples
• Se construye un árbol que contiene solo los clados presentes en todos los árboles (=árboles fundamentales)
• Otras relaciones (la que no estan en todos los árboles fundamentales) se muestran como politomías
CONSENSO ESTRICTO
A B C D E F G A B C E D F G
DOS ÁRBOLES FUNDAMENTALES
A B C D E F G
ÁRBOL DE CONSENSO ESTRICTO
CONSENSO ESTRICTO
Problema de los consensos estrictos
- Taxones inestables: ocupan múltiples posiciones posiblesDifícil interpretación de los resultados
1778 MPTs
CONSENSO REDUCIDOS (Wilkinson, 1994)
CONSENSO REDUCIDOS
CONSENSO REDUCIDOS
Posible estrategia de análisis
A posteriori del análisis con TODOS los taxones
CONSENSO ESTRICTO
CONSENSOS REDUCIDOSMAXIMUN AGEEMENT SUBTRESS
NO HAY RAZÓN PARA EXCLUIR A PRIORI DEL ANÁLISIS DE TAXONES CON ALTO PROCENTAJE DE DATOS FALTANTES
IterPCR (Pol & Scapa, 2009) implementado en TNT
Posible estrategia:- Detección de taxones inestables- Eliminación de los taxones inestables - Consenso reducido
14 MPTs of 173 steps (CI = 0.420 , RI = 0.599)
14 MPTs of 173 steps (CI = 0.420 , RI = 0.599)
Consenso estricto reducido
IterPCR Taxon inestable:Pervushoviasaurus
Resolución deEste clado
ÁRBOLES DE COMPROMISO
Mayoría clados que se repiten en más del 50% de losárboles fundamentales
Componentes combinables: clados presentesen al menos uno de los árboles pero compatible (sin conflicto)en los restantes árboles
A B C D E F G A B C E D F G
A B C E D F G
Frecuencia de losclados
A B C E F D G
100
66
66
66
66
ÁRBOLES DE COMPROMISO
ESTRATEGIAS DE ANÁLISIS
• Análisis separado, de consenso o de congruencia taxonómica
• Análisis simultáneo o combinado
• Análisis combinado condicionado
Análisis de conjuntos de datos
Análisis separado
• Analizar por separado los conjuntos de datos y una vezobtenidos los cladogramas se obtiene el árbol de consenso
Análisis simultáneo• Se realiza una única matriz y se analizan conjuntamente
Análisis combinado condicional• 1º un análisis separado, 2º análisis de congruencia, 3º eventualcombinación de los datos
Causas de incongruencia Biológicas
Metodológicas
• Diferentes tasas evolutivas de los genes• Hibridación o evolución reticulada• Trasferencia horizontal
• Errores de muestreo y determinación errónea dehomologías
• Errores en la secuenciación• Diferentes alineaciones•Aplicación de distintas estrategias de análisis de datos
Medidas de incongruencia
•Incongruence lenght difference (ILD)ILD = L (x+y) – (Lx + Ly)
L (x+y): matriz combinadaLx , Ly: matrices separadas
Medidas de incongruencia
•Test estadístico de incongruencia
P = 1- S (W+1)
- Primeramente se calcula el ILD- Se lo calcula sobre conjuntos de datos mezclados al azar(random partition technique)
S = número de particiones al azar que dieron valores menores al de la matriz original
W = número de particiones al azar
• BOOTSTRAP
• JACKKNIFE
• SOPORTE DE BREMER (DECAY INDEX)
Técnicas de re-muestreo
Soporte de los clados
• BOOTSTRAP Remuestreo con reposición
Obtención de matriz re-muestreada o pseudoréplica
Por cada matriz re-muestreada se obtiene un árbol
Grado de conflicto entre los árboles se mide mediante el consenso de mayoría
Porcentaje de las veces que aparecen los grupos en todos los
arboles comparados, se toma como una medida de soporte
Procedimiento Bootstrap
El soporte de cada rama interna se expresa como porcentajes de replicatas.
• Jackknife
Las matrices son re-muetreadas pero sin reposición
• El valor de jackknife indica el porcentaje de ocurrenciade una rama interna o clado, en los cladogramasresultantes de las matrices re-muestreadas
• Se diferencia de las técnicas de Bootstrap en que no hay reposición
• Soporte de Bremer (“Decay index” )
• Mide cuántos pasos extras se necesitan para queun clado en particular colapse
• Para un clado el valor del IB = la diferencia depasos entre a) el árbol más corto en que el clado encuestión no aparece y b) el árbol más corto
• El valor mínimo de apoyo es 1(solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0)
• A mayores valores mayor apoyo
CO EVOLUCIONBIOGEOGRAFÍA
ASOCIACIONES HISTORICAS
organismo
organismoáreagen parásito
hospedador
Genes y organismos Parásitos y hospedadores Organismos y áreas
CoespeciaciónCo-divergencia
duplicación Transmiciónhorizontal
Pérdida(“sorting”)
CO EVOLUCION
Codivergencia
Hospedero Parásito
Divergencia del parásito ocurreen respuesta a la divergencia del hospedero
Hospedero Parásito
Divergencia de la especie aen respuesta a la divergencia delhospedero A y subsecuente colonizaciónde nuevos hospederos
Aquino Martines, 2016
Estudios co-evolutivos Usando aproximaciones filogenéticasMartinez-Aquino, 2016
• Distribución natural de P. t. troglodytescoincide con las áreas endémicas del HIV-1 grupos M,N,O (infecta humanos)
• P.t. troglodytes reservorio primariodel HIV-1 y fuente de al menos 3infestaciones independientesa poblaciones humanas
Nature, 1999
Análisis filogenéitco del virus SIVcpzUS. Y otros virus de primates
Árbol filogenético(máxima verosimilitud)de los virus HIV y otrosrelacionados
HIV-1 (0)
HIV-2
HIV-1 (N)
HIV-1 (M)
HIV-2
Infectan humanos
2 MPTs172 stepsCI: 0.42, RI: 0.602
Plat
ypte
rygi
inae
“Oph
thal
mos
aurin
ae”
0
5
10
15
20
25
Phylogenetically corrected
Taxic diversity
DATOS MOLECULARES
Punto de partida: conjunto de secuencias de proteínas o ADN homólogas (=alineadas)
CLUSTAL W (1.74) multiple sequence alignment
Xenopus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTAGallus ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC---CAAAATAACACCAACATGCAAATGBos ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATGHomo ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGMus ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATGRattus ATGCATCCGCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG
****** **** ********* * *** * * *** * * *
VENTAJAS DE LOS DATOS MOLECULARES
PERMITEN ESTUDIAR EL GENOMAGRAN CANTIDAD DE DATOS“MAYOR OBJETIVIDAD”
DESVENTAJAS DE LOS DATOS MOLECULARES
PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA(en relación con los invariables)
CARACTERES INFORMATIVOS (proporción aun más baja)- DETERMINACION DE HOMOLOGÍAS
DESVENTAJAS DE LOS DATOS MOLECULARES
PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA(en relación con los invariables)
CARACTERES INFORMATIVOS (proporción aun más baja)- DETERMINACION DE HOMOLOGÍAS
Especie Secuencia de Aminoácidos Humano DAPGHRDFIKNMITGTSQADCAVLIV Tomate DAPGHRDFIKNMITGTSQADCAVLII Levadura DAPGHRDFIKNMITGTSQADCAILII Archaea DAPGHRDFVKNMITGASQADAAILVV Bacteria DCPGHADYVKNMITGAAQMDGAILVV Letras (conservadas)
D-PGH-D--KNMITG--Q-D---L--
SITIOSCONSERVADOS
Newly Expanded Tree of Life
Datos moleculares
• Secuencias de proteínas
• Secuencias de ADN de distintos genes
ADN “Fingerprinting”
ADN altamente repetitivo
Genes de copia única (nucleares)
Genes de copia múltiple
Ribosomales (conservados: plantas18S, 26S; animales 18S, 28 S) Taxones superiores
Mitocondriales (tasa mutación rápida en animales: COI, COII) → Especies próximas
Estudios de FilogeografiaEspecies partenogenéticas
Cloroplasto (ADN muy conservado: rbcL, rbcS) → Taxones superiores
ADN mitocondrial(ADNm)
•- Múltiples copias, se heredan generalmente por víamaterna (gameta femenina porta mitocondrias), generalmente hay homoplasmia (todas las mitocondrias son iguales) pocas regiones no codificantes
ESTABLECIMIENTO DE HOMOLOGÍAS
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS
ESTIMACION FILOGENÉTICA
PRUEBAS DE CONFIABILIDAD DE LA TOPOLOGÍA INFERIDA
INTERPRETACIÓN EVOLUTIVA Y APLICACIÓN DE LAS FILOGENIAS
PROTOCOLO BÁSICO PARA UN ANÁLSIS FILOGENÉTICO DE SECUENCIAS MOLECULARES
• secuencias ortólogas
e.g. Clustal
e.g. NJ, PARASIMONIA, ML, Bayesiano
bootstrap, probabilidad posterior
HOMOLOGIA A NIVEL MOLECULAR
Secuencias de ADN
Test de SIMILTUD
Test de CONJUNCION
Test de CONGRUENCIA
EQUIV.MORF
ORTOLOGA + + + HOMOLOGIA
PARALOGA + - + HOMONOMIA
XENOLOGA(transferenciahorizontal)
+ + - PARALELISMO
HOMOLOGIA A NIVEL MOLECULAR
Dos secuencias son homólogos si tienen un antecesor común
Dos secuencias son ortólogas si divergieron luego de un evento de especiación
Dos secuencias son parálogas si divergieron luego de un evento de duplicación
Secuencias ortólogas
Secuencias Parálogas
HOMOLOGIA A NIVEL MOLECULAR
SECUENCIAR
DETERMINAR EL ORDEN EXACTO DE LOS PARES DEBASES EN UN SEGMENTO DE ADN
La alineación es una hipótesis de homologíaposicional entre bases/aminoácidos
Métodos de alineamiento múltiple de secuencias
3 métodos principales
• Manual• Automatizado (computarizado)• Combinado
ALINEACIÓN DE SECUENCIASDIFERENCIA EN LA LONGITUD DEBIDA A MUTACIONES INDEL (INSERCIONESY DELECIONES): AGREGADO O PERDIDA DE BASES
INCORPORACIÓN DE GAPS
SE PUEDE ASIGNAR COSTOS DEFERENCIALES:
• A LAS SUSTITUCIONES Y A LOS GAPS (e.g. 1 y 2 respectivamente)• O A LAS TRANSICIONES O TRANSVERSIONES• COSTO DIFERENCIAL A LOS GAPS MÁS LARGOS
Alternativas de alineación
a) ACTTCCGAATTTGG - CTACT - - CGA- - TTG - CCT
En esta alineación no se registran sustituciones, pero hay 4 gaps.b) ACTTCCGAATTTGGCT
ACTC - - - GATT- GCCTEn esta alineación se registran 3 sustituciones (4º, 8º y 14º posición) y 2
gaps.
c) ACTTCCGAATTTGGCTACTC - - - - -GATTGCCT
En esta alineación se registran 4 sustituciones (4º, 9º, 10º y 14º posición) y 1 gap.
Alineamiento progresivoFeng and Doolittle in 1987
• Esencialmente es un método heurísticoy, como tal, no garantiza encontrar el alineamiento ‘óptimo’
• Requiere n-1 pares de alineamientos como punto de partida.
• Utiliza un árbol Neighbor-joining(guide tree)
• Una de las implementaciones más frecuentes es a través de Clustal
Alineamiento múltiple
Análisis Bayesiano-MrBayes
• Noción de probabilidades a posteriori: probabilidades que son estimadas, según un modelo elegido, luego de tener un conocimiento acerca de los datos.
• Existe una serie de métodos numéricos para calcular la probabilidad a posteriori de los árboles.
• Se construye un árbol al azar o se elige un árbol determinado.• Se evalúa ese árbol según el modelo elegido.• Se genera un nuevo árbol, y si es mejor que el anterior se acepta.• Cada tantas generaciones (especificadas por el usuario) se registra el árbol y
su verosimilitud en un archivo.• Se calcula el consenso de los árboles registrados.• Se dibuja el árbol de consenso, con las longitudes de sus ramas.
Algunos inconvenientesCambios múltiples (múltiple hits)
C AC G T A
1 2 3
1
Seq 1
Seq 2
Algunos inconvenientesAtracción de ramas largas (long branch attraction)
LAS TASAS DE CAMBIO EN LAS TERMINALES DEL CLADOGRAMA ES MUCHO MAYOR QUE EN EL RESTO DEL ÁRBOL, DE FORMA TAL QUE LAS RAMAS LARGAS TENDERÍAN A ATRAERSE LLEVANDO A FILOGENIA ERRÓNEAS