informe sobre el modelado de la distribución potencial de

Informe sobre el Modelado de la

Distribución Potencial de las Especies

Fuentes de verificación 5.11 del proyecto Desarrollo de modelos predictivos de la

conectividad funcional de poblaciones amenazadas en Zonas de Especial Conservación de la red

Natura 2000.

Martiño Cabana Otero

Universidad de A Coruña

1

Contenido

1. Introducción ............................................................................................................. 2

2. Material y métodos ................................................................................................... 4

2.1. Área de estudio ................................................................................................. 4

2.2. Origen de las citas ............................................................................................. 4

2.3. Variables ambientales........................................................................................ 4

2.4. Algoritmos estadísticos utilizados ..................................................................... 6

2.5. Evaluación de los modelos ................................................................................ 7

2.6. Creación de matrices de resistencia .................................................................. 8

3. Resultados ................................................................................................................ 9

3.1. Análisis preliminares ......................................................................................... 9

3.2. Distribución potencial de Chioglossa lusitanica ................................................. 12

3.3. Distribución potencial de Iberolacerta monticola .............................................. 15

3.4. Importancia del hábitat para las especies........................................................ 19

3.4.1. Chioglossa lusitanica .......................................................................... 19

3.4.2. Iberolacerta monticola ........................................................................ 20

4. Bibliografía ............................................................................................................. 22

2

INFORME SOBRE LA DISTRIBUCIÓN DE LOS HÁBITATS Y LAS ESPECIES

1. Introducción

Modelos predictivos de la distribución potencial de las especies

Podemos definir el nicho ecológico como el conjunto de condiciones ambientales

bajo las cuales las poblaciones de una especie pueden sobrevivir indefinidamente sin

necesidad de inmigración (Grinnell, 1917; Hutchinson, 1957). Este nicho ecológico está

condicionado por tres factores: las variables abióticas (“escenopoéticas”), los

condicionantes bióticos o variables bionómicas (depredación, parásitos, etc) y el área

accesible, siendo ésta el espacio geográfico que puede ser colonizado por la especie

(Soberon & Peterson, 2005). La conjunción de estos tres factores determina el área que

puede ser realmente ocupada por la especie estudiada (Figura 1).

Figura 1. Componentes de la distribución de las especies, según Soberón & Peterson (2005).

Las técnicas de modelado se basan en que cada punto del espacio geográfico

presenta unas condiciones ambientales determinadas (variables abióticas), por lo que

una especie, además de estar presente en un espacio geográfico determinado también

3

lo está en un espacio abstracto, compuesto por las n variables abióticas utilizadas para

representar las condiciones ambientales que una especie tolera. Esta relación dual

entre el espacio geográfico y el espacio ambiental se denomina dualidad de Hutchinson

(Figura 2).

Figura 2. Relación entre el espacio geográfico y el espacio ambiental. A cada punto geográfico del área

de estudio le corresponde un punto del espacio ambiental caracterizado por una serie de variables ambientales, según Soberón & Peterson (2005).

Debido a la dificultad para conocer con exactitud la distribución de las especies

y también al gran coste económico que representa una aproximación a este

conocimiento, el método de modelización predictiva del nicho ecológico se muestra

como una buena herramienta para conocer la distribución potencial de las especies y

como complemento de los atlas de distribución, así como para determinar las variables

ambientales que determinan su distribución.

4

2. Material y métodos

2.1. Área de estudio

Se ha establecido un área de estudio centrada en el área fluvial del ZEC Betanzos-

Mandeo. Debido a la inexistencia de límites netos en el territorio, se ha establecido un

área de estudio basada en unos determinados valores arbitrarios, pero adecuados para

el estudio realizado:

Límite Valor

X (mínimo) 564000 X (máximo) 582000 Y (mínimo) 4781000 Y (máximo) 4793000

Tabla 1. Límite del área de estudio representadas en el datum European Terrestrial Reference System de 1989 (ETRS89).

2.2. Origen de las citas

Se han utilizado las observaciones obtenidas durante los trabajos de campo. Sin

embargo, para reducir la autocorrelación espacial de las observaciones, que provocaría

su sobremodelado, se han eliminado las citas que estaban muy próximas entre sí de

manera aleatoria, estableciendo un área tampón (buffer) de 25 metros. Si bien este

tratamiento reduce el número de observaciones, es muy recomendable realizar estos

cálculos para evitar tener observaciones muy cercanas que produzcan modelos muy

centrados en las observaciones, con baja capacidad de extrapolación a todo el

territorio.

Las citas utilizadas están representadas en el datum European Terrestrial

Reference System de 1989 (ETRS89).

2.3. Variables ambientales

Para la realización de los modelos de las especies estudiadas, se utilizaron las

capas resultantes de los trabajos de teledetección. Tal y como se ha indicado en el

informe del análisis de los hábitats, se ha caracterizado la presencia de cinco tipos de

hábitats. Todas ellas se agrupan en una misma capa raster de tamaño de píxel de 10x10

metros de resolución y clasificadas numéricamente:

5

Bosque autóctono: robledal y bosque de ribera (clase o valor 1).

Plantaciones de Eucalyptus, principalmente E. globulus (clase o valor 2).

Infraestructuras (clase o valor 3).

Matorral (clase o valor 4).

Prados y cultivos (clase o valor 5).

Este análisis se ha construido a partir del análisis de teledetección de las imágenes

satelitales de Sentinel 2, creando una capa de hábitat para cada uno de los meses del

año. Posteriormente, se han creado dos capas definitivas. La primera, denominada

“raster_modal”, para cada pixel de la capa se calcula el valor más frecuente (moda) de

hábitat analizando las capas mensuales. La segunda, denominada “raster_modal_3”, se

ha realizado el mismo cálculo, pero calculando el valor más frecuente del pixel

analizado y de los ocho píxeles que lo rodean (malla de 3x3 píxeles). Por lo tanto, esta

segunda capa es más parsimoniosa y elimina posibles errores puntuales en la

determinación del tipo de hábitat existente en un determinado pixel.

A partir de la capa de hábitat de malla de 3x3 pixeles se han creado cinco capas

para los análisis de la importancia de cada clase de hábitat sobre las especies

estudiadas. Como resultado, se han creado las siguientes capas:

“h_carba”: Bosque autóctono: robledal y bosque de ribera.

“h_euca”: Plantaciones de Eucalyptus, principalmente E. globulus.

“h_infra”: Infraestructuras.

“h_mato”: Matorral.

“h_prado”: Prados y cultivos.

En cada una de ellas, se determina la presencia (clase o valor 1) o ausencia (clase

o valor 0) de cada tipo de hábitat en el pixel correspondiente, dando lugar a cinco capas

de tipo binomial.

A partir de los datos de altitud descargados del visor de descargas cartográficas

de la Xunta de Galicia (http://mapas.xunta.gal/visores/descargas/) se han calculado una

serie de variables derivadas típicas y que pueden condicionar la presencia de las

especies:

6

“mdt”: capa de altitudes.

“mdt slope”: capa de pendiente de la ladera.

“mdt aspect”: capa de orientación de la ladera.

“mdt hillshade”: capa de representación de sombras y niveles de radiancia

solar sobre el terreno.

“mdt roughness”: capa de rugosidad del terreno.

“mdt easterness”: capa de easterness, derivada de la transformación de la

capa de orientación de la ladera (aspect) para obtener un gradiente

continuo de la variable (sin(aspect)).

“mdt northerness”: capa de northerness, derivada de la transformación

de la capa de orientación de la ladera (aspect) para obtener un gradiente

continuo de la variable (cos(aspect)).

“mdt TPI”: capa del Índice de Posición Topográfica, Topographic Position

Index (TPI).

“mdt TRI”: capa del Índice de Rugosidad del terreno, Terrain Ruggedness

Index (TRI).

Se realizó una reducción de las variables utilizadas en los modelos finales

eliminando aquéllas que presentaban un elevado grado de correlación de Spearman

(mayor a 0.75 o inferior a -0.75) y manteniendo aquellas variables que más contribuían

en los modelos preliminares. Del mismo modo, se ha realizado un análisis de factor de

inflación de la varianza, abreviado como VIF debido a las iniciales del término en inglés

(Variance Inflation Factor).

2.4. Algoritmos estadísticos utilizados

Para la realización de los modelos predictivos se utilizó el algoritmo MaxEnt, que

se basa en la búsqueda de una distribución de Máxima Entropía para la modelización

de la distribución geográfica de las especies. Está basado en el ajuste de la función del

modelo que más se aproxima a una distribución que presenta la máxima entropía

teniendo en cuenta la restricción generada por los datos de presencia (Phillips et al.,

2006; Phillips et al., 2004). Este modelo flexible está considerado como uno de los más

eficientes en diferentes análisis comparativos entre varias metodologías (Elith et al.,

2006; Phillips et al., 2006; Segurado & Araújo, 2004).

7

El algoritmo utilizado por MaxEnt compara las variables ambientales existentes

en las zonas de presencia de la especie con las existentes en toda el área de estudio

(background o fondo) (Elith et al., 2006; Phillips et al., 2006; Segurado & Araújo, 2004).

Debido a que el algoritmo utilizado puede mostrar pequeñas variaciones en los

modelos creados en función del orden en la que las diferentes variables son analizadas,

se acostumbra a realizar un conjunto de modelos que luego son analizados de manera

conjunta, ofreciendo una serie de valores medios en los diferentes análisis, gráficas y

mapas creados.

2.5. Evaluación de los modelos

Para comprobar la calidad del modelo realizado a través de un método que sólo

utiliza presencias, como es el caso de MaxEnt, resulta muy adecuado la utilización de

la curva ROC (Receiver Operating Characteristic) (Hanley & McNeil, 1982), siendo ésta la

metodología usada habitualmente para la comprobación de modelos predictivos y

también para realizar comparaciones entre diferentes metodologías (Elith et al., 2006;

Muñoz & Felicísimo, 2004; Phillips et al., 2006; Segurado & Araújo, 2004).

MaxEnt calcula la sensibilidad y la especificidad del modelo para todos los

umbrales de idoneidad obtenidos por éste. La sensibilidad es la fracción de verdaderos

positivos (A / A + C) y la especificidad es la fracción de aleatorios positivos (D / B + D).

Posteriormente, se representa (1 – especificidad) en el eje de las abscisas frente a la

sensibilidad en el eje de las ordenadas para cada uno de los valores del umbral,

calculándose el área bajo la curva (AUC) de la curva ROC (Receiver Operating

Characteristic).

Muestra de evaluación

Presencia Background o fondo

Modelo Presencia A (Verdadero positivo) B (Aleatorio negativo) Ausencia C (Falso negativo) D (Aleatorio positivo)

El área bajo de la curva ROC (AUC) indica, para un punto de presencia y un

aleatorio seleccionado al azar, la probabilidad de que el valor de idoneidad previsto

por el modelo para el punto de presencia sea mayor que el previsto para el punto

aleatorio. Constituye una buena medida de la capacidad de predicción del modelo. Los

8

valores que puede tomar el AUC van desde 1, cuando existe un ajuste perfecto del

modelo, hasta 0. Sin embargo, un valor de AUC de 0,5 nos informa de que el ajuste es

igual al de un modelo realizado con puntos tomados al azar (Phillips et al., 2006; Phillips

et al., 2004), siendo extremadamente raro obtener valores inferiores a 0,5.

Uno de los objetivos fundamentales de los modelos de predicción de la

distribución de las especies es la obtención de un mapa en el cual se muestre la

idoneidad del hábitat dentro del área de estudio, por lo que se presentará también en

el apartado de los resultados obtenidos.

2.6. Creación de matrices de resistencia

Para la creación de las matrices de resistencia que posteriormente se usarán en

la implementación en el territorio de los resultados de los análisis genéticos se ha

seleccionado el modelo que mejor explica la distribución de las dos especies analizadas.

Posteriormente, se ha creado una matriz de resistencia calculada a partir de la inversa

de la favorabilidad del hábitat de cada especie.

9

3. Resultados

3.1. Análisis preliminares

Se han realizado un análisis preliminar para la reducción del número de variables

ambientales utilizadas en los modelos para así mejorar su calidad.

Figura 3. Dendrograma de la correlación de Spearman de todas las variables creadas. Las variables que se agrupan dentro del intervalo de distancia de correlación inferior a 0.25 (correlación de Spearman de

±0.75) deben ser eliminadas.

Del conjunto de variables que presentan un coeficiente de correlación superior a

0.75 (en valor absoluto), se han seleccionado aquellas variables que mejor pueden

explicar la distribución de las especies modeladas. A continuación, se muestra en

dendrograma de las variables seleccionadas teniendo en cuenta el coeficiente de

correlación de Spearman.

10

Figura 4. Dendrograma de la correlación de Spearman de las variables seleccionadas teniendo en

cuenta el coeficiente de correlación de Spearman.

Los valores del análisis de factor de inflación de la varianza, abreviado como VIF

debido a las iniciales del término en inglés (Variance Inflation Factor), han sido

inferiores a 5 en todas las variables, por lo que no ha sido necesario reducir el número

de variables teniendo en cuenta este análisis.

Del total de variables creadas (14 variables) se han seleccionado un total de 7

variables para realizar los modelos de distribución potencial de las especies estudiadas.

A continuación, se muestran las gráficas de respuesta de cada una de las variables a la

presencia de las dos especies, comparándolas con las características generales de las

variables en el área de estudio:

11

Figura 5. gráficas de respuesta de cada una de las variables a la presencia de las dos especies,

comparándolas con las características generales de las variables en el área de estudio.

12

3.2. Distribución potencial de Chioglossa lusitanica

El valor de la AUC (Area Under Curve) de la curva ROC (Receiver Operating

Characteristic) del entrenamiento del modelo es de 0.885, mientras que el de la

comprobación del modelo es de 0.907, lo que es considerado como un elevado valor

de predicción del modelo.

Figura 6. Gráfica ROC del modelo de Chioglossa lusitanica.

Figura 7. Gráfica ROC del modelo de Chioglossa lusitanica en función de los datos de entrenamiento y

validación del modelo.

13

De las variables de hábitat y topográficas usadas en los modelos, se muestran a

continuación aquellas que presentan una contribución del modelo superior al 5%.

Variable Significado Porcentaje de contribución

raster_modal_3 Hábitats y vegetación 85.0

mdt_slope Pendiente 8.9

mdt_TPI Índice Topográfico de Posición (TPI) 5.3

Tabla 1. Variables bioclimáticas y topográficas que contribuyen en más de un 5% en el modelo final de Chioglossa lusitanica.

A continuación, se muestran las curvas de respuesta de las variables que más

contribuyen en el modelo final realizado. En estas gráficas se analiza cómo responden

cada una de las variables teniendo en cuenta el efecto que determinan sus diferentes

valores (eje X) en la probabilidad de presencia de la especie (eje Y).

Figura 8. Curvas de respuesta de las variables que más contribuyen en el modelo final de Chioglossa

lusitanica.

MaxEnt también nos ofrece una gráfica Jackknife de la ganancia regularizada de

los datos de entrenamiento y del análisis del AUC. Para cada una de las variables usadas,

14

el programa realiza un modelo utilizando únicamente esta variable (barra azul), un test

con todas las variables excepto la que queremos analizar (barra verde) y finalmente un

último test con todas las variables (barra roja en la zona inferior de la gráfica).

Figura 9. Gráfica Jackknife de la ganancia regularizada de los datos de entrenamiento del modelo de

Chioglossa lusitanica.

Figura 10. Gráfica Jackknife del área bajo la curva ROC (AUC) del modelo de Chioglossa lusitanica.

15

Por último, se muestra a continuación el mapa resultante del modelo final

realizado.

Figura 11. Mapa predictivo de Chioglossa lusitanica.

3.3. Distribución potencial de Iberolacerta monticola

El valor de la AUC (Area Under Curve) de la curva ROC (Receiver Operating

Characteristic) del entrenamiento del modelo es de 0.926, mientras que el de la

comprobación del modelo es de 0.849, lo que es considerado como un elevado valor

de predicción del modelo.

16

Figura 12. Gráfica ROC del modelo de Iberolacerta monticola.

Figura 13. Gráfica ROC del modelo de Iberolacerta monticola en función de los datos de entrenamiento y

validación del modelo.

De las variables de hábitat y topográficas usadas en los modelos, se muestran a

continuación aquellas que presentan una contribución del modelo superior al 5%.

17

Variable Significado Porcentaje de contribución

raster_modal_3 Hábitats y vegetación 59.6

mdt_northerness Northerness 28.7

mdt_TPI Índice Topográfico de Posición (TPI) 7.2

Tabla 2. Variables bioclimáticas y topográficas que contribuyen en más de un 5% en el modelo final de Iberolacerta monticola.

A continuación, se muestran las curvas de respuesta de las variables que más

contribuyen en el modelo final realizado. En estas gráficas se analiza cómo responden

cada una de las variables teniendo en cuenta el efecto que determinan sus diferentes

valores (eje X) en la probabilidad de presencia de la especie (eje Y).

Figura 14. Curvas de respuesta de las variables que más contribuyen en el modelo final de Iberolacerta

monticola.

MaxEnt también nos ofrece una gráfica Jackknife de la ganancia regularizada de

los datos de entrenamiento y del análisis del AUC. Para cada una de las variables usadas,

el programa realiza un modelo utilizando únicamente esta variable (barra azul), un test

con todas las variables excepto la que queremos analizar (barra verde) y finalmente un

último test con todas las variables (barra roja en la zona inferior de la gráfica).

18

Figura 15. Gráfica Jackknife de la ganancia regularizada de los datos de entrenamiento del modelo de

Iberolacerta monticola.

Figura 16. Gráfica Jackknife de la ganancia regularizada de los datos de entrenamiento del modelo de Iberolacerta monticola.

Por último, se muestra a continuación el mapa resultante del modelo final

realizado.

19

Figura 17. Mapa predictivo de Iberolacerta monticola.

3.4. Importancia del hábitat para las especies

Se ha realizado un modelo para cada una de las especies estudiadas utilizando

solamente las variables binomiales de hábitat (“h_carba”, h_euca, h_infra, h_mato y

h_prado). Logicamente, al usar únicamente estas variables en formato binomial, el

modelo resultante tiene menor poder predictor pero, por el contrario, nos permite

tener un análisis de la importancia de cada tipo de hábitat para la especie.

3.4.1. Chioglossa lusitanica

A continuación, se muestran las curvas de respuesta de Chioglossa lusitanica para

la presencia o ausencia de los diferentes hábitats estudiados.

20

Figura 18. Curvas de respuesta para cada tipo de hábitat para Chioglossa lusitanica.

Se puede observar una respuesta positiva del modelo a la presencia del bosque

autóctono (h_carba). Por el contrario, existe una respuesta negativa a la presencia de

plantaciones de eucalipto (h_euca), matorral (h_mato) y prados y cultivos (h_prado).

3.4.2. Iberolacerta monticola

A continuación, se muestran las curvas de respuesta de Iberolacerta monticola para

la presencia o ausencia de los diferentes hábitats estudiados.

21

Figura 19. Curvas de respuesta para cada tipo de hábitat para Iberolacerta monticola.

Se puede observar una respuesta positiva del modelo a la presencia del bosque

autóctono (h_carba). Por el contrario, existe una respuesta negativa a la presencia de

plantaciones de eucalipto (h_euca) y prados y cultivos (h_prado).

22

4. Bibliografía

Elith, J., C. H. Graham, R. P. Anderson, M. Dudı´k, S. Ferrier, Guisan, A., R. J.

Hijmans, F. Huettmann, J. R. Leathwick, A. Lehmann, J. Li, L. G. Lohmann, B. A. Loiselle,

G. Manion, C. Moritz, M. Nakamura, Nakazawa, J. McC. Overton, A. T. Peterson, S. J.

Phillips, K. S. Richardson, R. Scachetti-Pereira, R. E. Schapire, J. Soberón, S. Williams,

M. S. Wisz, and N. E. Zimmermann. 2006. Novel methods improve prediction of species’

distributions from occurrence data. Ecography, 29(2): 129-151.

Segurado, P., & Araújo, M. B. 2004. An evaluation of methods for modelling

species distributions. Journal of Biogeography, 31(10): 1555-1568.

Grinnell, J. 1917. The Niche-Relationships of the California Thrasher. The Auk,

34(4): 427-433.

Hutchinson, G. E. 1957. Concludig remarks. Cold Spring Harbor Symposia on

Quantitative Biology, 22: 415-427.

Hanley, J. A., & McNeil, B. J. 1982. The meaning and use of the area under a

receiver operating characteristic (ROC) curve. Radiology, 143(1): 29-36.

Phillips, S. J., Dudík, M., & Schapire, R. E. 2004. A maximum entropy approach to

species distribution modeling. In Proceeding of the 21st International Conference on

Machine Learning. Banff, Alberta, Canadá.

Muñoz, J., & Felicísimo, A. M. 2004. Comparison of statistical methods commonly

used in predictive modelling. Journal of Vegetation Science, 15: 285-292.

Soberon, J., & Peterson, T. A. 2005. Interpretation of Models of Fundamental

Ecological Niches and Species’ Distributional Areas. Biodiversity Informatics, 2: 1-10.

Phillips, S. J., Anderson, R. P., & Schapire, R. E. 2006. Maximum entropy modeling

of species geographic distributions. Ecological Modeling, 190(3-4): 231-259.

informe sobre el modelado de la distribución potencial de

Documents