modelos para la predicción de la distribución de especies
DESCRIPTION
Introducción a los métodos de predicción de distribución potencial de especies. Uso de bases de datos, DivaGIS, MaxEnt, Bioclim, Worldclim. Validación de los modelos por AUC y ROC.TRANSCRIPT
![Page 1: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/1.jpg)
Modelos para la predicción de la distribución de especies
12 de abril de 2023
![Page 2: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/2.jpg)
Problemática
Se desconoce la distribución real de las especies.
![Page 3: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/3.jpg)
Utilidad de conocer la distribución ecológica y geográfica
• Conservación del recurso• Predicción en climas pasados y futuros• Entender patrones espaciales de diversidad• Potencial invasivo de especies no-nativas• Comparación entre especies relacionadas
![Page 4: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/4.jpg)
¿Qué es el área de distribución?
Es el producto de 3 factores:• B: Bióticos• A: Ambientales• M: Movimiento
Es el espacio donde se encuentra una especie.
![Page 5: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/5.jpg)
Áreas ocupadas vs Áreas potenciales
La modelación de áreas ocupadas (GO), se conoce como Environmental Niche Modelling
La modelación de áreas potenciales (GI), se denomina Species Distribution Modelling
![Page 6: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/6.jpg)
¿Qué información necesitamos para hacer modelaje?
DATOS
![Page 7: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/7.jpg)
TIPOS DE DATOS
![Page 8: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/8.jpg)
Datos de ocurrencia
• Primarios: Ubican a un individuo de una especie en un lugar y tiempo (observación o ejemplar).
• Secundarios: Depende de la interpretación, generalización, promedio de los datos primarios.
![Page 9: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/9.jpg)
Datos de ocurrencia
• Presencia: Se observó o colectó un individuo en un sitio y tiempo dado.
• No-presencia• Ausencias estrictas: La especie no aparece en inventarios
exhaustivos.• Pseudoausencias: Se generan usando la distancia de presencia.
A mayor distancia->Más puntos de ausencia. GARP los genera al azar.
• Trasfondo (background): Datos al azar para caracterizar el ambiente en general. Puede coincidir con puntos de presencia. Adecuados para Maxent.
![Page 10: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/10.jpg)
Datos de ocurrencia• Suelen ser escasos y obtenidos
sin planeación (museos y herbarios).
• Considerar nomenclatura de la especie, georeferenciación y resolución.
• Usar datos disponibles públicamente (repetible).
• Mínimo ideal 40 puntos. Sin evaluar bastan 20 puntos. No usar menos de 10. Más de 200 puede producir “sobreajuste”.
![Page 11: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/11.jpg)
Datos de ocurrencia (fuentes)• CONABIO (REMIB)• UNAM (UNIBIO)• Global Biodiversity Information Facility (GBIF)• Vertebrados (VertNet )• SpeciesLink• Southwest Environmental Information Network (SEINet)• National Biodiversity Institute (INBIO)• Ocean Biogeographic Information System (OBIS)• Australia’s Virtual Herbarium (AVH)
![Page 12: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/12.jpg)
Datos ambientales Son capas predictoras obtenidas de interpolaciones o
transformaciones de datos primarios climáticos o percepción remota.
Se deben seleccionar variables que incidan en la ecología de la especie.
Se debe conocer la precisión, la resolución y la fuente de estos datos.
Eliminar variables correlacionadas (redundantes), usar no más de 10 en total.
Usar interacciones entre variables para ajustar superficies (sólo si hay más de 20 ocurrencias).
![Page 13: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/13.jpg)
Datos ambientales: Vector vs. Raster
RASTER = La información está contenida en celdas, organizada por filas y columnas (v.g. fotografía digital).
VECTOR =La información está
expresada en vectores, manteniendo las características geométricas de las figuras.
![Page 14: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/14.jpg)
Datos en Vector
Ventajas• Estructura de datos
compacta. Poca memoria.• Codificación eficiente de
topología.• Buena salida gráfica
(mapas).• Re-escalado y re-proyección
fáciles de hacer.
Desventajas• Estructura de datos
compleja.• Superposición de capas
complicada.• Poco eficaz con alta
variación de datos.• Difícil de mantener
actualizado.
![Page 15: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/15.jpg)
Datos en Raster
Ventajas
• Estructura de datos simple• Superposición sencilla• Optimo para registrar
variaciones altas
Desventajas
• Mucha memoria• Mapas poco vistosos
(granulados) por baja resolución.
![Page 16: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/16.jpg)
Variables ambientales
Climáticas• Temperaturas
– Promedio– Mínima– Máxima
• Precipitación• Altitud
BioclimáticasBIO1 = Annual Mean TemperatureBIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp))BIO3 = Isothermality (BIO2/BIO7) (* 100)BIO4 = Temperature Seasonality (standard deviation *100)BIO5 = Max Temperature of Warmest MonthBIO6 = Min Temperature of Coldest MonthBIO7 = Temperature Annual Range (BIO5-BIO6)BIO8 = Mean Temperature of Wettest QuarterBIO9 = Mean Temperature of Driest QuarterBIO10 = Mean Temperature of Warmest QuarterBIO11 = Mean Temperature of Coldest QuarterBIO12 = Annual PrecipitationBIO13 = Precipitation of Wettest MonthBIO14 = Precipitation of Driest MonthBIO15 = Precipitation Seasonality (Coefficient of Variation)BIO16 = Precipitation of Wettest QuarterBIO17 = Precipitation of Driest QuarterBIO18 = Precipitation of Warmest QuarterBIO19 = Precipitation of Coldest Quarter
![Page 17: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/17.jpg)
Filtros Ambientales
Se pueden determinar las variables limitantes en el área de distribución: Most limiting factors.
Son variables que limitan el establecimiento de una especie (usualmente los máximos y mínimos en temperatura y precipitación).
![Page 18: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/18.jpg)
Datos ambientales (fuentes)
• CONABIO: Topografía y clima• WorldClim: 19 variables bioclimáticas.• CRU: Coberturas globales. Relacionado con IPCC.• EROS: Imágenes aéreas y satelitales, elevación e
hidrología.
![Page 19: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/19.jpg)
Ejercicio 1
1. Descargar coordenadas para 1 especie presente en México.
2. Transformarlas a decimales.
3. Proyectarlas en Google Maps.– Transformar a formato KMZ en:
http://www.earthpoint.us/ExcelToKml.aspx
4. Proyectarlas en Diva-Gis.– Cargar también un mapa de la República Mexicana
![Page 20: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/20.jpg)
TIPOS DE MÉTODOS
![Page 21: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/21.jpg)
Modelos predictivos
• Hacen predicciones detalladas de la distribución, asociando la presencia de la especie a factores ambientales.
• Son una herramienta en estudios de ecología, evolución y conservación.
• Se construyen con métodos muy variados
![Page 22: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/22.jpg)
De acuerdo a su amplitud:
• Métodos de una especie: Predicen la distribución usando datos para una sola especie.
• Métodos de comunidad: Definen un modelo usando todos los sitios disponibles para todas las especies del grupo biológico de interés.
![Page 23: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/23.jpg)
De acuerdo a su resultado:
• Mapa Binario: No da información sobre la relación de la especie con las variables ambientales ni de las variables ambientales entre sí (útil para determinar la distribución potencial, el riesgo de invasión biológica, y encontrar nuevos lugares).
• Mapa Probabilístico: Informa sobre la relación de la especie con las variables ambientales y entre ellas (útil para encontrar las variables determinantes).
![Page 24: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/24.jpg)
BIOCLIM
• Es el más simple y fácil de entender.• Requiere datos de presencia.• Algoritmo de Envoltura Bioclimática.• Produce mapas binarios. • No considera las relaciones entre las variables.• No asigna probabilidades.
Falso-Verdadero Factor más limitante
![Page 25: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/25.jpg)
BIOCLIM
El usuario puede definir los valores mínimos y máximos para cada variable ambiental donde la especie está presente, creando una envoltura ambiental rectangular.
Es recomendable explorar los datos para evitar sesgo en la distribución de las observaciones.
![Page 26: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/26.jpg)
DOMAIN• Requiere datos de presencia.• Algoritmo de distancia.• Usa un índice de similitud para comparar el sitio donde está
presente la especie contra un nuevo sitio. La similitud de las variables ambientales entre los dos sitios es evaluada y se genera un valor que muestra la similitud y confianza del cálculo.
También genera mapas de:Verdadero-Falso y Factor Más Limitante.
![Page 27: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/27.jpg)
GARP(Genetic Algorithm for Rule-set Production)
• Requiere datos de presencia (genera sus propios datos de ausencia).
• Algoritmo Genético que compara distintos algoritmos:– Atómica– Regresión logística, – Envoltura bioclimática – Envoltura bioclimática inversa
• Se deben hacer de 100 a 1000 simulaciones por grupo de datos.• Produce mapas binarios.• No produce probabilidades, sino un índice de lo adecuado que es
el ambiente para la especie.
![Page 28: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/28.jpg)
GARP• GARP analiza estos algoritmos para encontrar correlaciones no-aleatorias entre los
datos de presencia y pseudo ausencia. • El modelo se corre varias veces y los mapas de predicción se combinan para crear un
mapa final que muestre la frecuencia con que cada localidad apareció en los mapas de predicción (selección natural).
Mapa 1 Mapa 2 Mapa n
Mapa combinado
![Page 29: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/29.jpg)
MaxEnt
• Algoritmo de Distribución de Máxima Entropía• Requiere datos de presencia (genera sus propios
datos de ausencia).• Produce:
– Mapas probabilísticos– Variables explicativas– Curvas ROC
• Tiende a sobreajustar el modelo (no descarta datos).
![Page 30: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/30.jpg)
MaxEnt• Esta técnica usa el máximo valor de entropía para estimar la distribución
más uniforme de los datos de ocurrencia en el área de estudio. • Esta distribución uniforme está restringida por los valores ambientales o
la proporción de ocurrencia de puntos en una categoría. • La distribución predicha resultante es regularizada para evitar el
sobreajuste.
Los valores de salida se representan como porcentajes donde 100% es el más adecuado y 0% el menos adecuado.
![Page 31: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/31.jpg)
Software SIG
ArcView y ArcGIS: desarrollados por ESRIEnvironmental Systems Research Institute
http://www.esri.com/
DIVA-GIS: gratuito, incluye DOMAIN y BIOCLIM http://www.diva-gis.org/
GRASS: gratuito http://grass.osgeo.org/
![Page 32: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/32.jpg)
Ejercicio 2
• Modelar los datos de ocurrencia de 1 especie en. – BIOCLIM – DOMAIN– Desktop GARP– MaxEnt
![Page 33: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/33.jpg)
EVALUACIÓN DE MODELOS
![Page 34: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/34.jpg)
Validar un modelo consiste en contrastar sus predicciones respecto a datos considerados independientes para obtener una medida de:
I. Su significancia en relación con una hipótesis nula.
II. Su desempeño (capacidad de clasificar correctamente nuevos datos).
![Page 35: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/35.jpg)
Errores que pueden ocurrir• De omisión: El modelo no tomó en cuenta una
ocurrencia (subpredicción).
• De comisión: El modelo predijo una ocurrencia donde no existe (sobrepredicción).
Matriz de Confusión
![Page 36: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/36.jpg)
Errores duros y Errores blandos
Un error de omisión es considerado un error duro puede ocurrir por :
a) Mala identificación de la especie.
b) Mala georreferenciación.
c) Especies en tránsito, fuera de su nicho.
Un error de comisión es considerado un error blando y ocurre porque:
d) Faltó esfuerzo de muestreo, pero el área es adecuada.
e) El área es adecuada pero la especie no está ahí por algún evento histórico.
f) El área no es adecuada = verdadero error de comisión
![Page 37: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/37.jpg)
Métodos de Evaluación
• Curvas ROC y AUC (Área Bajo la Curva)
• Curvas de omisión (Omission curves)
• Jackknife Model Testing
![Page 38: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/38.jpg)
Receiver Operating Characteristic (ROC)
• Es una curva que describe la tasa de identificación correcta de presencias (sensitivity) contra la tasa de falsas alarmas (specificity).
• La línea recta no tiene valor predictivo (es aleatoria).
![Page 39: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/39.jpg)
Area Under the Curve (AUC)
• Es el área total bajo la curva.
• Un clasificador aleatorio tiene un área de 0.5; un muy buen clasificador tiene un área muy cercana a 1.
• Un ROC ≥ 0.9 es bueno.
![Page 40: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/40.jpg)
Problemas de la AUC• Requeriría de datos de ausencias verdaderas.• Asigna igual ponderación a los errores de omisión y
comisión.• Presupone que el clasificador (algoritmo de
modelación) genera todos los valores del rango, lo cual no siempre es cierto.
Ausenciasverdaderas
Omisión y Comisión
Rango
ROC parcialAUC parcial
![Page 41: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/41.jpg)
INTERPRETACIÓN DEL MODELO
![Page 42: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/42.jpg)
1. Mundo Clásico• Las ausencias se deben a
razones radicalmente diferentes dependiendo de la zona.
• Las presencias están determinadas por una combinación de factores de tal forma que se pueden cometer errores por dos causas distintas.
• G0 y A son distintas y los métodos basados en presencias solas tienden a estimar un área intermedia entre G0 y A.
![Page 43: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/43.jpg)
2. Mundo de Hutchinson• Todas las ausencias tienen una
sola causa (medio ambiente inadecuado).
• Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual existen datos (variables ambientales).
• En este escenario G0=A y los métodos basados en presencias solas harán un buen o mal trabajo de estimar ambas zonas por igual.
![Page 44: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/44.jpg)
3. Mundo de Wallace• Todas las ausencias tienen una
sola causa (incapacidad de dispersarse).
• Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual no existe información (la dispersión).
• En este escenario A contiene a G0 y los métodos basados en presencia solas, en el mejor de los casos, proveerán una estimación más o menos completa de A.
![Page 45: Modelos para la predicción de la distribución de especies](https://reader036.vdocumento.com/reader036/viewer/2022081512/55690706d8b42ac1628b4a05/html5/thumbnails/45.jpg)
Ejercicio 3
• Validar por ROC un modelo de Bioclim usando Diva-Gis.