inferencia filogenetica bayesiana vs. soporte en …

INFERENCIA FILOGENETICA BAYESIANA VS. SOPORTE EN MAXIMA LIKELIHOOD:

Para la familia Felidae de acuerdo al gen TR-i-1

_______________________________________________________________________

Arenas Jiménez Sebastián 2050188

Sistemática. Facultad de Ciencias. Escuela de Biología.

Universidad Industrial de Santander. Bucaramanga, Colombia. 2009

INTRODUCCION

Felideae es la familia biológica de los gatos el cual actualmente agrupa cerca de 40 especies,

es una de las dieciséis pertenecientes al orden Carnivora (Flynn et al. 2005). Sus especies se

distribuyen en todo el planeta a excepción de las regiones de Australia y la Antártica, siendo un

grupo originario en Asia, que debido a migraciones por el estrecho de Bering y por el istmo de

Panamá ha evolucionado en ocho linajes diferentes (Jonson & O’Brian, 2005 ).

Huelsenbeck et al. (2001) se refieren a la inferencia bayesiana como una equivalencia con el

análisis de máxima likelihood más un remuestreo en bootstrap pero mucho más rápido,

explicando que el prior decrece a medida que la cantidad de datos se incrementa (Erixon,

2003). El análisis bayesiano y el bootstrap paramétrico se basan en simulaciones de Monte

Carlo, utilizando el modelo de Markov que asume estocasticidad, donde un evento es

independiente del otro (Efron 1985; Erixon et al. 2003; Newton & Geyer 1994; Rambault &

Grassey, 1997). En comparación con el soporte en Máxima Likelihood, el análisis bayesiano es

mucho más rápido porque todos los árboles en una cadena son derivados de una optimización

previa. Mientras que el tiempo requerido por ML para computar un simple árbol y que

durante el bootstrap cada árbol sea optimizado separadamente es más arduo (Wagele, 2005).

Sin embargo, se debe tener en cuenta que en Bayes la asignación de priores, el modelo

evolutivo y la selección de la topología obliga a hacer afirmaciones fuertes, como falsedad en

las justificaciones de la utilización de las MCMC, porque las probabilidades de cada grupo

pueden ser equivalentes a las determinadas por un bootstraping paramétrico. El cual tiene

como propósito inicial evaluar lo ocurrido si obtenemos más datos a partir de la topología

resultado de los datos reales (Soltis & Soltis, 2003; Rambault & Grassly, 1997). Este método ha

sido utilizado para detectar parafilia la cual es producida por cambios similares en la longitud

de las ramas, para analizar de la influencia de la longitud de la secuencia y como método de

reconstrucción de una topología (Wagele, 2005).

Objetivamente las comparaciones son difíciles porque pocos trabajos han aplicado el mismo

modelo para bootstrapping y análisis bayesiano (Erixon et al 2003). Por lo cual el objetivo del

estudio fue determinar si se presenta equivalencia entre el las frecuencias del bootstrap

paramétrico y las probabilidades posteriores aplicando una matriz molecular.

METODOLOGIA

En el presente estudio se utilizo el gen nuclear TR-i-1 el cual fue extraído del trabajo de Flynn

et al (2005), utilizando 6 grupos internos de la familia Felidae y un grupo externo de la Familia

Herpestidae (Atila paludinosus). Inicialmente el alineamiento se realizo mediante el programa

MUSCLE 3.6 (Edgar, 2005), y utilizando el programa JModelTest (Posada, 2008), se determino

el modelo evolutivo molecular utilizando el criterio Akaike de información filogenética. Se

realizo el bootstrap paramétrico según la metodología expuesta en algunos trabajos (de Zanis

et al. 2002; Erixon et al. 2003), de la siguiente manera: utilizando como base el modelo ya

calculado, se estimo que tanto se ajusta la hipótesis filogenética a los datos con el

procedimiento de Máxima Likelihood utilizando nuevamente JmodelTest; posteriormente se

ejecutaron simulaciones de 15 set de datos idénticos en tamaño a la matriz original en el

programa Seq-Genv1.3.2 (Rambault & Grassly, 1997), utilizando el árbol producto de la

Máxima Likelihood, el modelo calculado y los parámetros de este. Los archivos de simulaciones

obtenidas se analizaron en PhyML 3.0 (Guindon & Gascuel, 2008). La estrategia de búsqueda

de la topología en ML fue basada en el algoritmo SPR, calculando también el soporte de los

nodos con bootstrap de mil réplicas. Se realizo un consenso de la mayoría (50%) para los

árboles generados utilizando el programa Mesquite (Maddison & Maddison, 2007). En adición

se realizo un soporte de bootstrap no paramétrico con el propósito de observar las diferencias

en contraste con el bootstrap paramétrico en WINCLADA ver 1.00.08 (Nixon, 1999) vía NONA

ver 2.0 (Goloboff, 1993).

Finalmente se realizo un análisis de inferencia bayesiana para el gen nuclear utilizando el

programa MR BAYES 3.1.2 (Huelsenbeck & Ronquist, 2001), corriendo una cadena Markov

Monte Carlo, para 5’000.000 de generaciones.

RESULTADOS Y DISCUSIÓN

El modelo de evolución obtenido en JModelTest según el criterio de Akaike para el gen TR-i-1

fue GTR con sus parámetros correspondientes, al igual que la topología según Máxima

Likelihood para los datos reales, presentada en la Fig. 1. La cual esta mostrando una relación

de cercanía entre todos los terminales de la familia Felidae sobre todo entre Acinonyx jubatus,

Felis pardales y Lynx Rufos. Los valores de los parámetros para GTR fueron las frecuencias de

los cuatro nucleótidos (A=0.277, C=0.2187, G = 0.1956, T = 0.3087) y la taza relativa de

sustitución de los nucleótidos (A → C= 0.806, A → G = 1.899, A → T = 0.161, C → G =

0.767, C → T = 1.89, G → T = 1.00) la cual nos muestra mas frecuente las transiciones que

las transversiones; una vez introducidos la topologia, los parámetros y el modelo GTR, Seq-

Gen.v1.3.2 me produjo 15 set artificiales de datos cada uno correspondiente con una

topología, las cuales me generaron un consenso de la regla de mayoría (50%) representado en

la Fig. 2. mostrando a Felidae como un grupo muy politómico señalando que las relaciones

entre este grupo no están claras, pero también encontramos que en el 53.33% de los árboles

obtenidos se presenta el nodo que relaciona a Acinonyx jubatus, y Lynx Rufos que es

equivalente al valor de bootstrap paramétrico. Es fundamental tener en cuenta que el buen

resultado del bootstrap depende del numero de simulaciones por lo cual se recomienda

utilizar un valor mucho mas alto (Zanis et al. 2001). En el caso del bootstrap no paramétrico

(Fig. 3) nuevamente no encontramos ningún grupo resuelto, ni tampoco similaridad con el

bootstrap paramétrico, pero si muestra gran parecido con el análisis bayesiano al presentar las

mismas politomías.

El análisis de inferencia bayesiana (Fig. 4), representó una topología con dos politomías, la

primera con una probabilidad a posteriori de 0.82 para Felis silvestris, Panthera leo, y el grupo

representado por Acinonyx jubatus, Felis pardalis y Lynx rufus, el cual a su vez muestra la otra

politomía con una probabilidad a posteriori de 0.8. Esas politomías no permiten mostrar

relación alguna entre los ingroups es decir que el análisis bayesiano no resuelve las relaciones.

Por lo tanto posiblemente si se incluyen en el estudio mas especies o los otros seis genes

presentados en el trabajo de Flynn et al. (2005) se resuelvan las relaciones entre los individuos,

del mismo modo seria recomendable aumentar el numero de generaciones.

Finalmente comprando los resultados del análisis bayesiano con los obtenidos en el

bootstraping paramétrico (Fig. 5), se rechaza la idea de que las frecuencias de bootstrap

estimadas por ML y las probabilidades bayesianas posteriores en árboles filogenéticos son

equivalentes, caso que también se presenta en el trabajo de Erixon (2003). En la misma figura

también se observa que en la topología de Bootstrap la relación existente entre Acinonyx

jubatus, y Lynx rufus. Mientras que la topología para la inferencia bayesiana no esclareció

ninguna relación entre los individuos por lo tanto para el presente estudio se recomienda,

tener mayor cantidad de información (ingroups y secuencias moleculares) y de esta manera tal

vez se obtenga un resultado diferente en el análisis bayesiano, lo mismo para el caso del

bootstrapping paramétrico, además que el realizar una mayor cantidad de simulaciones podría

estar esclareciéndome otras relaciones para los individuos de la familia Felidae.

REFERENCIAS

Edgar C. 2005. MUSCLE: multiple sequence alignment with high accuracy and high throughput,

Nucleic Acids Research 32; 1792-97.

Efron B. 1985. Bootstrap confidence intervals for a class of parametric problems. Biometrika

72, 1, pp, 45-58.

Erixon P., Svennblan B., Britton T. & Oxelman B. 2003. Reliability of bayesian posterior

probabilities and boostrap frecuencies in phylogenetics. Syst. Biol 52(2): 665-673

Flynn J., Finarelli J., Zehr S., Hsu J., Nedbal M. 2005. Molecular phylogeny of the Carnivora

(Mammalia): Assessing the impact of increased sampling on resolving enigmatic relationships.

Syst. Biol. 54 (2): 317 – 337.

Goloboff, P.A. (1993). NONA, Version 1.6. Published by the Author, Instituto Miguel Lillo,

Miguel Lillo 205, 400 Sierra Madre de Tucuman, Argentina

Guindon S. & Gascuel O. (2008). A simple, fast and accurate algorithm to estimate large

phylogenies by maximum likelihood. Systematic Biology. 52:696-704

Huelsenbeck J. & Ronquist F. (2001). MRBAYES: Bayesian inference of phylogeny.

Biometriks. 17:754-755.

Huelsenbeck J., F Ronquist F., Nielsen R. & Bollback J. 2001. Bayesian inference of phylogeny

and its impact on evolutionary biology. Science 294:2310-2314.

Maddison W. & Maddison D .2007 Mesquite: A modular system for evolutionary analysis,

version 2.71 (http://mesquiteproject.org).

Newton M. & Geyer C. 1994. Bootstrap recycling: A Monte Carlo alternative to the nested

bootstrap. Journal of the American statistical Association. Vol. 89, No. 427.

Nixon K.C. (1999) WINCLADA (BETA), Version 0.9.9. Published by the author, Cornell

University, Ithaca, New York. Nixon, K.C. & Carpenter, J.M. (1993) On Outgroups. Cladistics, 9:

413–426.

O'Brien J & Johnson W. (2005). "Big cat genomics". Annu Rev Genomics Hum Genet 6: 407–29.

Posada D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and Evolution

25: 1253-1256.

Rambault A. & Grassly. 1997. Seq-Gen. Sequence-Generator: An application for the Monte

Carlo simulation of molecular sequence evolution along phylogenetic trees. Version 1.3.2.

Soltis P & Soltis D. 2003. Applying the bootstrap in phylogeny reconstruction. Statistical

science. Vol 18 No. 2, 256-267

Waguele J. 2005. Foundation of phylogenetic systematic

Zanis M., Soltis D., Soltis P.,Mathews S., Donoghue M. 2002. The root of the angiosperms

revisited. Evolution vol. 99 no.10.

ANEXOS

Fig. 1. Filogenia de la familia Felidae según el criterio de Máxima Likelihood

Fig. 2. Bootstrap paramétrico resultado del consenso de la mayoría de 15 topologías de

la familia Felidae según el criterio de Máxima Likelihood para set de datos artificiales.

Fig 3. Bootstraping no parametrico para el set de datos real

Fig. 4. Análisis de inferencia bayesiana.

Fig 5. Análisis de inferencia bayesiana del lado izquierdo y el bootstrap paramétrico del

lado derecho.

inferencia filogenetica bayesiana vs. soporte en …

Documents