inferencia filogenetica bayesiana vs. soporte en …
TRANSCRIPT
INFERENCIA FILOGENETICA BAYESIANA VS. SOPORTE EN MAXIMA LIKELIHOOD:
Para la familia Felidae de acuerdo al gen TR-i-1
_______________________________________________________________________
Arenas Jiménez Sebastián 2050188
Sistemática. Facultad de Ciencias. Escuela de Biología.
Universidad Industrial de Santander. Bucaramanga, Colombia. 2009
INTRODUCCION
Felideae es la familia biológica de los gatos el cual actualmente agrupa cerca de 40 especies,
es una de las dieciséis pertenecientes al orden Carnivora (Flynn et al. 2005). Sus especies se
distribuyen en todo el planeta a excepción de las regiones de Australia y la Antártica, siendo un
grupo originario en Asia, que debido a migraciones por el estrecho de Bering y por el istmo de
Panamá ha evolucionado en ocho linajes diferentes (Jonson & O’Brian, 2005 ).
Huelsenbeck et al. (2001) se refieren a la inferencia bayesiana como una equivalencia con el
análisis de máxima likelihood más un remuestreo en bootstrap pero mucho más rápido,
explicando que el prior decrece a medida que la cantidad de datos se incrementa (Erixon,
2003). El análisis bayesiano y el bootstrap paramétrico se basan en simulaciones de Monte
Carlo, utilizando el modelo de Markov que asume estocasticidad, donde un evento es
independiente del otro (Efron 1985; Erixon et al. 2003; Newton & Geyer 1994; Rambault &
Grassey, 1997). En comparación con el soporte en Máxima Likelihood, el análisis bayesiano es
mucho más rápido porque todos los árboles en una cadena son derivados de una optimización
previa. Mientras que el tiempo requerido por ML para computar un simple árbol y que
durante el bootstrap cada árbol sea optimizado separadamente es más arduo (Wagele, 2005).
Sin embargo, se debe tener en cuenta que en Bayes la asignación de priores, el modelo
evolutivo y la selección de la topología obliga a hacer afirmaciones fuertes, como falsedad en
las justificaciones de la utilización de las MCMC, porque las probabilidades de cada grupo
pueden ser equivalentes a las determinadas por un bootstraping paramétrico. El cual tiene
como propósito inicial evaluar lo ocurrido si obtenemos más datos a partir de la topología
resultado de los datos reales (Soltis & Soltis, 2003; Rambault & Grassly, 1997). Este método ha
sido utilizado para detectar parafilia la cual es producida por cambios similares en la longitud
de las ramas, para analizar de la influencia de la longitud de la secuencia y como método de
reconstrucción de una topología (Wagele, 2005).
Objetivamente las comparaciones son difíciles porque pocos trabajos han aplicado el mismo
modelo para bootstrapping y análisis bayesiano (Erixon et al 2003). Por lo cual el objetivo del
estudio fue determinar si se presenta equivalencia entre el las frecuencias del bootstrap
paramétrico y las probabilidades posteriores aplicando una matriz molecular.
METODOLOGIA
En el presente estudio se utilizo el gen nuclear TR-i-1 el cual fue extraído del trabajo de Flynn
et al (2005), utilizando 6 grupos internos de la familia Felidae y un grupo externo de la Familia
Herpestidae (Atila paludinosus). Inicialmente el alineamiento se realizo mediante el programa
MUSCLE 3.6 (Edgar, 2005), y utilizando el programa JModelTest (Posada, 2008), se determino
el modelo evolutivo molecular utilizando el criterio Akaike de información filogenética. Se
realizo el bootstrap paramétrico según la metodología expuesta en algunos trabajos (de Zanis
et al. 2002; Erixon et al. 2003), de la siguiente manera: utilizando como base el modelo ya
calculado, se estimo que tanto se ajusta la hipótesis filogenética a los datos con el
procedimiento de Máxima Likelihood utilizando nuevamente JmodelTest; posteriormente se
ejecutaron simulaciones de 15 set de datos idénticos en tamaño a la matriz original en el
programa Seq-Genv1.3.2 (Rambault & Grassly, 1997), utilizando el árbol producto de la
Máxima Likelihood, el modelo calculado y los parámetros de este. Los archivos de simulaciones
obtenidas se analizaron en PhyML 3.0 (Guindon & Gascuel, 2008). La estrategia de búsqueda
de la topología en ML fue basada en el algoritmo SPR, calculando también el soporte de los
nodos con bootstrap de mil réplicas. Se realizo un consenso de la mayoría (50%) para los
árboles generados utilizando el programa Mesquite (Maddison & Maddison, 2007). En adición
se realizo un soporte de bootstrap no paramétrico con el propósito de observar las diferencias
en contraste con el bootstrap paramétrico en WINCLADA ver 1.00.08 (Nixon, 1999) vía NONA
ver 2.0 (Goloboff, 1993).
Finalmente se realizo un análisis de inferencia bayesiana para el gen nuclear utilizando el
programa MR BAYES 3.1.2 (Huelsenbeck & Ronquist, 2001), corriendo una cadena Markov
Monte Carlo, para 5’000.000 de generaciones.
RESULTADOS Y DISCUSIÓN
El modelo de evolución obtenido en JModelTest según el criterio de Akaike para el gen TR-i-1
fue GTR con sus parámetros correspondientes, al igual que la topología según Máxima
Likelihood para los datos reales, presentada en la Fig. 1. La cual esta mostrando una relación
de cercanía entre todos los terminales de la familia Felidae sobre todo entre Acinonyx jubatus,
Felis pardales y Lynx Rufos. Los valores de los parámetros para GTR fueron las frecuencias de
los cuatro nucleótidos (A=0.277, C=0.2187, G = 0.1956, T = 0.3087) y la taza relativa de
sustitución de los nucleótidos (A → C= 0.806, A → G = 1.899, A → T = 0.161, C → G =
0.767, C → T = 1.89, G → T = 1.00) la cual nos muestra mas frecuente las transiciones que
las transversiones; una vez introducidos la topologia, los parámetros y el modelo GTR, Seq-
Gen.v1.3.2 me produjo 15 set artificiales de datos cada uno correspondiente con una
topología, las cuales me generaron un consenso de la regla de mayoría (50%) representado en
la Fig. 2. mostrando a Felidae como un grupo muy politómico señalando que las relaciones
entre este grupo no están claras, pero también encontramos que en el 53.33% de los árboles
obtenidos se presenta el nodo que relaciona a Acinonyx jubatus, y Lynx Rufos que es
equivalente al valor de bootstrap paramétrico. Es fundamental tener en cuenta que el buen
resultado del bootstrap depende del numero de simulaciones por lo cual se recomienda
utilizar un valor mucho mas alto (Zanis et al. 2001). En el caso del bootstrap no paramétrico
(Fig. 3) nuevamente no encontramos ningún grupo resuelto, ni tampoco similaridad con el
bootstrap paramétrico, pero si muestra gran parecido con el análisis bayesiano al presentar las
mismas politomías.
El análisis de inferencia bayesiana (Fig. 4), representó una topología con dos politomías, la
primera con una probabilidad a posteriori de 0.82 para Felis silvestris, Panthera leo, y el grupo
representado por Acinonyx jubatus, Felis pardalis y Lynx rufus, el cual a su vez muestra la otra
politomía con una probabilidad a posteriori de 0.8. Esas politomías no permiten mostrar
relación alguna entre los ingroups es decir que el análisis bayesiano no resuelve las relaciones.
Por lo tanto posiblemente si se incluyen en el estudio mas especies o los otros seis genes
presentados en el trabajo de Flynn et al. (2005) se resuelvan las relaciones entre los individuos,
del mismo modo seria recomendable aumentar el numero de generaciones.
Finalmente comprando los resultados del análisis bayesiano con los obtenidos en el
bootstraping paramétrico (Fig. 5), se rechaza la idea de que las frecuencias de bootstrap
estimadas por ML y las probabilidades bayesianas posteriores en árboles filogenéticos son
equivalentes, caso que también se presenta en el trabajo de Erixon (2003). En la misma figura
también se observa que en la topología de Bootstrap la relación existente entre Acinonyx
jubatus, y Lynx rufus. Mientras que la topología para la inferencia bayesiana no esclareció
ninguna relación entre los individuos por lo tanto para el presente estudio se recomienda,
tener mayor cantidad de información (ingroups y secuencias moleculares) y de esta manera tal
vez se obtenga un resultado diferente en el análisis bayesiano, lo mismo para el caso del
bootstrapping paramétrico, además que el realizar una mayor cantidad de simulaciones podría
estar esclareciéndome otras relaciones para los individuos de la familia Felidae.
REFERENCIAS
Edgar C. 2005. MUSCLE: multiple sequence alignment with high accuracy and high throughput,
Nucleic Acids Research 32; 1792-97.
Efron B. 1985. Bootstrap confidence intervals for a class of parametric problems. Biometrika
72, 1, pp, 45-58.
Erixon P., Svennblan B., Britton T. & Oxelman B. 2003. Reliability of bayesian posterior
probabilities and boostrap frecuencies in phylogenetics. Syst. Biol 52(2): 665-673
Flynn J., Finarelli J., Zehr S., Hsu J., Nedbal M. 2005. Molecular phylogeny of the Carnivora
(Mammalia): Assessing the impact of increased sampling on resolving enigmatic relationships.
Syst. Biol. 54 (2): 317 – 337.
Goloboff, P.A. (1993). NONA, Version 1.6. Published by the Author, Instituto Miguel Lillo,
Miguel Lillo 205, 400 Sierra Madre de Tucuman, Argentina
Guindon S. & Gascuel O. (2008). A simple, fast and accurate algorithm to estimate large
phylogenies by maximum likelihood. Systematic Biology. 52:696-704
Huelsenbeck J. & Ronquist F. (2001). MRBAYES: Bayesian inference of phylogeny.
Biometriks. 17:754-755.
Huelsenbeck J., F Ronquist F., Nielsen R. & Bollback J. 2001. Bayesian inference of phylogeny
and its impact on evolutionary biology. Science 294:2310-2314.
Maddison W. & Maddison D .2007 Mesquite: A modular system for evolutionary analysis,
version 2.71 (http://mesquiteproject.org).
Newton M. & Geyer C. 1994. Bootstrap recycling: A Monte Carlo alternative to the nested
bootstrap. Journal of the American statistical Association. Vol. 89, No. 427.
Nixon K.C. (1999) WINCLADA (BETA), Version 0.9.9. Published by the author, Cornell
University, Ithaca, New York. Nixon, K.C. & Carpenter, J.M. (1993) On Outgroups. Cladistics, 9:
413–426.
O'Brien J & Johnson W. (2005). "Big cat genomics". Annu Rev Genomics Hum Genet 6: 407–29.
Posada D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and Evolution
25: 1253-1256.
Rambault A. & Grassly. 1997. Seq-Gen. Sequence-Generator: An application for the Monte
Carlo simulation of molecular sequence evolution along phylogenetic trees. Version 1.3.2.
Soltis P & Soltis D. 2003. Applying the bootstrap in phylogeny reconstruction. Statistical
science. Vol 18 No. 2, 256-267
Waguele J. 2005. Foundation of phylogenetic systematic
Zanis M., Soltis D., Soltis P.,Mathews S., Donoghue M. 2002. The root of the angiosperms
revisited. Evolution vol. 99 no.10.
ANEXOS
Fig. 1. Filogenia de la familia Felidae según el criterio de Máxima Likelihood
Fig. 2. Bootstrap paramétrico resultado del consenso de la mayoría de 15 topologías de
la familia Felidae según el criterio de Máxima Likelihood para set de datos artificiales.
Fig 3. Bootstraping no parametrico para el set de datos real
Fig. 4. Análisis de inferencia bayesiana.
Fig 5. Análisis de inferencia bayesiana del lado izquierdo y el bootstrap paramétrico del
lado derecho.