informe sobre el modelado de la distribución potencial de
TRANSCRIPT
Informe sobre el Modelado de la
Distribución Potencial de las Especies
Fuentes de verificación 5.11 del proyecto Desarrollo de modelos predictivos de la
conectividad funcional de poblaciones amenazadas en Zonas de Especial Conservación de la red
Natura 2000.
Martiño Cabana Otero
Universidad de A Coruña
1
Contenido
1. Introducción ............................................................................................................. 2
2. Material y métodos ................................................................................................... 4
2.1. Área de estudio ................................................................................................. 4
2.2. Origen de las citas ............................................................................................. 4
2.3. Variables ambientales........................................................................................ 4
2.4. Algoritmos estadísticos utilizados ..................................................................... 6
2.5. Evaluación de los modelos ................................................................................ 7
2.6. Creación de matrices de resistencia .................................................................. 8
3. Resultados ................................................................................................................ 9
3.1. Análisis preliminares ......................................................................................... 9
3.2. Distribución potencial de Chioglossa lusitanica ................................................. 12
3.3. Distribución potencial de Iberolacerta monticola .............................................. 15
3.4. Importancia del hábitat para las especies........................................................ 19
3.4.1. Chioglossa lusitanica .......................................................................... 19
3.4.2. Iberolacerta monticola ........................................................................ 20
4. Bibliografía ............................................................................................................. 22
2
INFORME SOBRE LA DISTRIBUCIÓN DE LOS HÁBITATS Y LAS ESPECIES
1. Introducción
Modelos predictivos de la distribución potencial de las especies
Podemos definir el nicho ecológico como el conjunto de condiciones ambientales
bajo las cuales las poblaciones de una especie pueden sobrevivir indefinidamente sin
necesidad de inmigración (Grinnell, 1917; Hutchinson, 1957). Este nicho ecológico está
condicionado por tres factores: las variables abióticas (“escenopoéticas”), los
condicionantes bióticos o variables bionómicas (depredación, parásitos, etc) y el área
accesible, siendo ésta el espacio geográfico que puede ser colonizado por la especie
(Soberon & Peterson, 2005). La conjunción de estos tres factores determina el área que
puede ser realmente ocupada por la especie estudiada (Figura 1).
Figura 1. Componentes de la distribución de las especies, según Soberón & Peterson (2005).
Las técnicas de modelado se basan en que cada punto del espacio geográfico
presenta unas condiciones ambientales determinadas (variables abióticas), por lo que
una especie, además de estar presente en un espacio geográfico determinado también
3
lo está en un espacio abstracto, compuesto por las n variables abióticas utilizadas para
representar las condiciones ambientales que una especie tolera. Esta relación dual
entre el espacio geográfico y el espacio ambiental se denomina dualidad de Hutchinson
(Figura 2).
Figura 2. Relación entre el espacio geográfico y el espacio ambiental. A cada punto geográfico del área
de estudio le corresponde un punto del espacio ambiental caracterizado por una serie de variables ambientales, según Soberón & Peterson (2005).
Debido a la dificultad para conocer con exactitud la distribución de las especies
y también al gran coste económico que representa una aproximación a este
conocimiento, el método de modelización predictiva del nicho ecológico se muestra
como una buena herramienta para conocer la distribución potencial de las especies y
como complemento de los atlas de distribución, así como para determinar las variables
ambientales que determinan su distribución.
4
2. Material y métodos
2.1. Área de estudio
Se ha establecido un área de estudio centrada en el área fluvial del ZEC Betanzos-
Mandeo. Debido a la inexistencia de límites netos en el territorio, se ha establecido un
área de estudio basada en unos determinados valores arbitrarios, pero adecuados para
el estudio realizado:
Límite Valor
X (mínimo) 564000 X (máximo) 582000 Y (mínimo) 4781000 Y (máximo) 4793000
Tabla 1. Límite del área de estudio representadas en el datum European Terrestrial Reference System de 1989 (ETRS89).
2.2. Origen de las citas
Se han utilizado las observaciones obtenidas durante los trabajos de campo. Sin
embargo, para reducir la autocorrelación espacial de las observaciones, que provocaría
su sobremodelado, se han eliminado las citas que estaban muy próximas entre sí de
manera aleatoria, estableciendo un área tampón (buffer) de 25 metros. Si bien este
tratamiento reduce el número de observaciones, es muy recomendable realizar estos
cálculos para evitar tener observaciones muy cercanas que produzcan modelos muy
centrados en las observaciones, con baja capacidad de extrapolación a todo el
territorio.
Las citas utilizadas están representadas en el datum European Terrestrial
Reference System de 1989 (ETRS89).
2.3. Variables ambientales
Para la realización de los modelos de las especies estudiadas, se utilizaron las
capas resultantes de los trabajos de teledetección. Tal y como se ha indicado en el
informe del análisis de los hábitats, se ha caracterizado la presencia de cinco tipos de
hábitats. Todas ellas se agrupan en una misma capa raster de tamaño de píxel de 10x10
metros de resolución y clasificadas numéricamente:
5
Bosque autóctono: robledal y bosque de ribera (clase o valor 1).
Plantaciones de Eucalyptus, principalmente E. globulus (clase o valor 2).
Infraestructuras (clase o valor 3).
Matorral (clase o valor 4).
Prados y cultivos (clase o valor 5).
Este análisis se ha construido a partir del análisis de teledetección de las imágenes
satelitales de Sentinel 2, creando una capa de hábitat para cada uno de los meses del
año. Posteriormente, se han creado dos capas definitivas. La primera, denominada
“raster_modal”, para cada pixel de la capa se calcula el valor más frecuente (moda) de
hábitat analizando las capas mensuales. La segunda, denominada “raster_modal_3”, se
ha realizado el mismo cálculo, pero calculando el valor más frecuente del pixel
analizado y de los ocho píxeles que lo rodean (malla de 3x3 píxeles). Por lo tanto, esta
segunda capa es más parsimoniosa y elimina posibles errores puntuales en la
determinación del tipo de hábitat existente en un determinado pixel.
A partir de la capa de hábitat de malla de 3x3 pixeles se han creado cinco capas
para los análisis de la importancia de cada clase de hábitat sobre las especies
estudiadas. Como resultado, se han creado las siguientes capas:
“h_carba”: Bosque autóctono: robledal y bosque de ribera.
“h_euca”: Plantaciones de Eucalyptus, principalmente E. globulus.
“h_infra”: Infraestructuras.
“h_mato”: Matorral.
“h_prado”: Prados y cultivos.
En cada una de ellas, se determina la presencia (clase o valor 1) o ausencia (clase
o valor 0) de cada tipo de hábitat en el pixel correspondiente, dando lugar a cinco capas
de tipo binomial.
A partir de los datos de altitud descargados del visor de descargas cartográficas
de la Xunta de Galicia (http://mapas.xunta.gal/visores/descargas/) se han calculado una
serie de variables derivadas típicas y que pueden condicionar la presencia de las
especies:
6
“mdt”: capa de altitudes.
“mdt slope”: capa de pendiente de la ladera.
“mdt aspect”: capa de orientación de la ladera.
“mdt hillshade”: capa de representación de sombras y niveles de radiancia
solar sobre el terreno.
“mdt roughness”: capa de rugosidad del terreno.
“mdt easterness”: capa de easterness, derivada de la transformación de la
capa de orientación de la ladera (aspect) para obtener un gradiente
continuo de la variable (sin(aspect)).
“mdt northerness”: capa de northerness, derivada de la transformación
de la capa de orientación de la ladera (aspect) para obtener un gradiente
continuo de la variable (cos(aspect)).
“mdt TPI”: capa del Índice de Posición Topográfica, Topographic Position
Index (TPI).
“mdt TRI”: capa del Índice de Rugosidad del terreno, Terrain Ruggedness
Index (TRI).
Se realizó una reducción de las variables utilizadas en los modelos finales
eliminando aquéllas que presentaban un elevado grado de correlación de Spearman
(mayor a 0.75 o inferior a -0.75) y manteniendo aquellas variables que más contribuían
en los modelos preliminares. Del mismo modo, se ha realizado un análisis de factor de
inflación de la varianza, abreviado como VIF debido a las iniciales del término en inglés
(Variance Inflation Factor).
2.4. Algoritmos estadísticos utilizados
Para la realización de los modelos predictivos se utilizó el algoritmo MaxEnt, que
se basa en la búsqueda de una distribución de Máxima Entropía para la modelización
de la distribución geográfica de las especies. Está basado en el ajuste de la función del
modelo que más se aproxima a una distribución que presenta la máxima entropía
teniendo en cuenta la restricción generada por los datos de presencia (Phillips et al.,
2006; Phillips et al., 2004). Este modelo flexible está considerado como uno de los más
eficientes en diferentes análisis comparativos entre varias metodologías (Elith et al.,
2006; Phillips et al., 2006; Segurado & Araújo, 2004).
7
El algoritmo utilizado por MaxEnt compara las variables ambientales existentes
en las zonas de presencia de la especie con las existentes en toda el área de estudio
(background o fondo) (Elith et al., 2006; Phillips et al., 2006; Segurado & Araújo, 2004).
Debido a que el algoritmo utilizado puede mostrar pequeñas variaciones en los
modelos creados en función del orden en la que las diferentes variables son analizadas,
se acostumbra a realizar un conjunto de modelos que luego son analizados de manera
conjunta, ofreciendo una serie de valores medios en los diferentes análisis, gráficas y
mapas creados.
2.5. Evaluación de los modelos
Para comprobar la calidad del modelo realizado a través de un método que sólo
utiliza presencias, como es el caso de MaxEnt, resulta muy adecuado la utilización de
la curva ROC (Receiver Operating Characteristic) (Hanley & McNeil, 1982), siendo ésta la
metodología usada habitualmente para la comprobación de modelos predictivos y
también para realizar comparaciones entre diferentes metodologías (Elith et al., 2006;
Muñoz & Felicísimo, 2004; Phillips et al., 2006; Segurado & Araújo, 2004).
MaxEnt calcula la sensibilidad y la especificidad del modelo para todos los
umbrales de idoneidad obtenidos por éste. La sensibilidad es la fracción de verdaderos
positivos (A / A + C) y la especificidad es la fracción de aleatorios positivos (D / B + D).
Posteriormente, se representa (1 – especificidad) en el eje de las abscisas frente a la
sensibilidad en el eje de las ordenadas para cada uno de los valores del umbral,
calculándose el área bajo la curva (AUC) de la curva ROC (Receiver Operating
Characteristic).
Muestra de evaluación
Presencia Background o fondo
Modelo Presencia A (Verdadero positivo) B (Aleatorio negativo) Ausencia C (Falso negativo) D (Aleatorio positivo)
El área bajo de la curva ROC (AUC) indica, para un punto de presencia y un
aleatorio seleccionado al azar, la probabilidad de que el valor de idoneidad previsto
por el modelo para el punto de presencia sea mayor que el previsto para el punto
aleatorio. Constituye una buena medida de la capacidad de predicción del modelo. Los
8
valores que puede tomar el AUC van desde 1, cuando existe un ajuste perfecto del
modelo, hasta 0. Sin embargo, un valor de AUC de 0,5 nos informa de que el ajuste es
igual al de un modelo realizado con puntos tomados al azar (Phillips et al., 2006; Phillips
et al., 2004), siendo extremadamente raro obtener valores inferiores a 0,5.
Uno de los objetivos fundamentales de los modelos de predicción de la
distribución de las especies es la obtención de un mapa en el cual se muestre la
idoneidad del hábitat dentro del área de estudio, por lo que se presentará también en
el apartado de los resultados obtenidos.
2.6. Creación de matrices de resistencia
Para la creación de las matrices de resistencia que posteriormente se usarán en
la implementación en el territorio de los resultados de los análisis genéticos se ha
seleccionado el modelo que mejor explica la distribución de las dos especies analizadas.
Posteriormente, se ha creado una matriz de resistencia calculada a partir de la inversa
de la favorabilidad del hábitat de cada especie.
9
3. Resultados
3.1. Análisis preliminares
Se han realizado un análisis preliminar para la reducción del número de variables
ambientales utilizadas en los modelos para así mejorar su calidad.
Figura 3. Dendrograma de la correlación de Spearman de todas las variables creadas. Las variables que se agrupan dentro del intervalo de distancia de correlación inferior a 0.25 (correlación de Spearman de
±0.75) deben ser eliminadas.
Del conjunto de variables que presentan un coeficiente de correlación superior a
0.75 (en valor absoluto), se han seleccionado aquellas variables que mejor pueden
explicar la distribución de las especies modeladas. A continuación, se muestra en
dendrograma de las variables seleccionadas teniendo en cuenta el coeficiente de
correlación de Spearman.
10
Figura 4. Dendrograma de la correlación de Spearman de las variables seleccionadas teniendo en
cuenta el coeficiente de correlación de Spearman.
Los valores del análisis de factor de inflación de la varianza, abreviado como VIF
debido a las iniciales del término en inglés (Variance Inflation Factor), han sido
inferiores a 5 en todas las variables, por lo que no ha sido necesario reducir el número
de variables teniendo en cuenta este análisis.
Del total de variables creadas (14 variables) se han seleccionado un total de 7
variables para realizar los modelos de distribución potencial de las especies estudiadas.
A continuación, se muestran las gráficas de respuesta de cada una de las variables a la
presencia de las dos especies, comparándolas con las características generales de las
variables en el área de estudio:
11
Figura 5. gráficas de respuesta de cada una de las variables a la presencia de las dos especies,
comparándolas con las características generales de las variables en el área de estudio.
12
3.2. Distribución potencial de Chioglossa lusitanica
El valor de la AUC (Area Under Curve) de la curva ROC (Receiver Operating
Characteristic) del entrenamiento del modelo es de 0.885, mientras que el de la
comprobación del modelo es de 0.907, lo que es considerado como un elevado valor
de predicción del modelo.
Figura 6. Gráfica ROC del modelo de Chioglossa lusitanica.
Figura 7. Gráfica ROC del modelo de Chioglossa lusitanica en función de los datos de entrenamiento y
validación del modelo.
13
De las variables de hábitat y topográficas usadas en los modelos, se muestran a
continuación aquellas que presentan una contribución del modelo superior al 5%.
Variable Significado Porcentaje de contribución
raster_modal_3 Hábitats y vegetación 85.0
mdt_slope Pendiente 8.9
mdt_TPI Índice Topográfico de Posición (TPI) 5.3
Tabla 1. Variables bioclimáticas y topográficas que contribuyen en más de un 5% en el modelo final de Chioglossa lusitanica.
A continuación, se muestran las curvas de respuesta de las variables que más
contribuyen en el modelo final realizado. En estas gráficas se analiza cómo responden
cada una de las variables teniendo en cuenta el efecto que determinan sus diferentes
valores (eje X) en la probabilidad de presencia de la especie (eje Y).
Figura 8. Curvas de respuesta de las variables que más contribuyen en el modelo final de Chioglossa
lusitanica.
MaxEnt también nos ofrece una gráfica Jackknife de la ganancia regularizada de
los datos de entrenamiento y del análisis del AUC. Para cada una de las variables usadas,
14
el programa realiza un modelo utilizando únicamente esta variable (barra azul), un test
con todas las variables excepto la que queremos analizar (barra verde) y finalmente un
último test con todas las variables (barra roja en la zona inferior de la gráfica).
Figura 9. Gráfica Jackknife de la ganancia regularizada de los datos de entrenamiento del modelo de
Chioglossa lusitanica.
Figura 10. Gráfica Jackknife del área bajo la curva ROC (AUC) del modelo de Chioglossa lusitanica.
15
Por último, se muestra a continuación el mapa resultante del modelo final
realizado.
Figura 11. Mapa predictivo de Chioglossa lusitanica.
3.3. Distribución potencial de Iberolacerta monticola
El valor de la AUC (Area Under Curve) de la curva ROC (Receiver Operating
Characteristic) del entrenamiento del modelo es de 0.926, mientras que el de la
comprobación del modelo es de 0.849, lo que es considerado como un elevado valor
de predicción del modelo.
16
Figura 12. Gráfica ROC del modelo de Iberolacerta monticola.
Figura 13. Gráfica ROC del modelo de Iberolacerta monticola en función de los datos de entrenamiento y
validación del modelo.
De las variables de hábitat y topográficas usadas en los modelos, se muestran a
continuación aquellas que presentan una contribución del modelo superior al 5%.
17
Variable Significado Porcentaje de contribución
raster_modal_3 Hábitats y vegetación 59.6
mdt_northerness Northerness 28.7
mdt_TPI Índice Topográfico de Posición (TPI) 7.2
Tabla 2. Variables bioclimáticas y topográficas que contribuyen en más de un 5% en el modelo final de Iberolacerta monticola.
A continuación, se muestran las curvas de respuesta de las variables que más
contribuyen en el modelo final realizado. En estas gráficas se analiza cómo responden
cada una de las variables teniendo en cuenta el efecto que determinan sus diferentes
valores (eje X) en la probabilidad de presencia de la especie (eje Y).
Figura 14. Curvas de respuesta de las variables que más contribuyen en el modelo final de Iberolacerta
monticola.
MaxEnt también nos ofrece una gráfica Jackknife de la ganancia regularizada de
los datos de entrenamiento y del análisis del AUC. Para cada una de las variables usadas,
el programa realiza un modelo utilizando únicamente esta variable (barra azul), un test
con todas las variables excepto la que queremos analizar (barra verde) y finalmente un
último test con todas las variables (barra roja en la zona inferior de la gráfica).
18
Figura 15. Gráfica Jackknife de la ganancia regularizada de los datos de entrenamiento del modelo de
Iberolacerta monticola.
Figura 16. Gráfica Jackknife de la ganancia regularizada de los datos de entrenamiento del modelo de Iberolacerta monticola.
Por último, se muestra a continuación el mapa resultante del modelo final
realizado.
19
Figura 17. Mapa predictivo de Iberolacerta monticola.
3.4. Importancia del hábitat para las especies
Se ha realizado un modelo para cada una de las especies estudiadas utilizando
solamente las variables binomiales de hábitat (“h_carba”, h_euca, h_infra, h_mato y
h_prado). Logicamente, al usar únicamente estas variables en formato binomial, el
modelo resultante tiene menor poder predictor pero, por el contrario, nos permite
tener un análisis de la importancia de cada tipo de hábitat para la especie.
3.4.1. Chioglossa lusitanica
A continuación, se muestran las curvas de respuesta de Chioglossa lusitanica para
la presencia o ausencia de los diferentes hábitats estudiados.
20
Figura 18. Curvas de respuesta para cada tipo de hábitat para Chioglossa lusitanica.
Se puede observar una respuesta positiva del modelo a la presencia del bosque
autóctono (h_carba). Por el contrario, existe una respuesta negativa a la presencia de
plantaciones de eucalipto (h_euca), matorral (h_mato) y prados y cultivos (h_prado).
3.4.2. Iberolacerta monticola
A continuación, se muestran las curvas de respuesta de Iberolacerta monticola para
la presencia o ausencia de los diferentes hábitats estudiados.
21
Figura 19. Curvas de respuesta para cada tipo de hábitat para Iberolacerta monticola.
Se puede observar una respuesta positiva del modelo a la presencia del bosque
autóctono (h_carba). Por el contrario, existe una respuesta negativa a la presencia de
plantaciones de eucalipto (h_euca) y prados y cultivos (h_prado).
22
4. Bibliografía
Elith, J., C. H. Graham, R. P. Anderson, M. Dudı´k, S. Ferrier, Guisan, A., R. J.
Hijmans, F. Huettmann, J. R. Leathwick, A. Lehmann, J. Li, L. G. Lohmann, B. A. Loiselle,
G. Manion, C. Moritz, M. Nakamura, Nakazawa, J. McC. Overton, A. T. Peterson, S. J.
Phillips, K. S. Richardson, R. Scachetti-Pereira, R. E. Schapire, J. Soberón, S. Williams,
M. S. Wisz, and N. E. Zimmermann. 2006. Novel methods improve prediction of species’
distributions from occurrence data. Ecography, 29(2): 129-151.
Segurado, P., & Araújo, M. B. 2004. An evaluation of methods for modelling
species distributions. Journal of Biogeography, 31(10): 1555-1568.
Grinnell, J. 1917. The Niche-Relationships of the California Thrasher. The Auk,
34(4): 427-433.
Hutchinson, G. E. 1957. Concludig remarks. Cold Spring Harbor Symposia on
Quantitative Biology, 22: 415-427.
Hanley, J. A., & McNeil, B. J. 1982. The meaning and use of the area under a
receiver operating characteristic (ROC) curve. Radiology, 143(1): 29-36.
Phillips, S. J., Dudík, M., & Schapire, R. E. 2004. A maximum entropy approach to
species distribution modeling. In Proceeding of the 21st International Conference on
Machine Learning. Banff, Alberta, Canadá.
Muñoz, J., & Felicísimo, A. M. 2004. Comparison of statistical methods commonly
used in predictive modelling. Journal of Vegetation Science, 15: 285-292.
Soberon, J., & Peterson, T. A. 2005. Interpretation of Models of Fundamental
Ecological Niches and Species’ Distributional Areas. Biodiversity Informatics, 2: 1-10.
Phillips, S. J., Anderson, R. P., & Schapire, R. E. 2006. Maximum entropy modeling
of species geographic distributions. Ecological Modeling, 190(3-4): 231-259.