bibiana rocío rivera guerrero -...
TRANSCRIPT
Clasificación de cobertura del suelo sobre área urbana a partir
de imágenes satelitales de mediana resolución empleando
regresión-kriging: una comparación con otros métodos no
convencionales
TESIS DE GRADO PRESENTADA POR:
Bibiana Rocío Rivera Guerrero
PARA OPTAR AL TÍTULO DE MAGISTER EN CIENCIAS DE LA
INFORMACIÓN Y LAS COMUNICACIONES
UNIVERSIDAD DISTRITAL “FRANCISCO JOSÉ DE CALDAS”
DIRECTOR
Phd. Ing. Carlos Eduardo Melo Martínez
Facultad de Ingeniería
Universidad Distrital Francisco José de Caldas
Universidad Distrital Francisco José de Caldas
Facultad de Ingeniería
Maestría en Ciencias de la Información y las Comunicaciones
Bogotá, Mayo de 2016
Resumen
En este trabajo se propuso la clasificación de cobertura del suelo sobre área urbana a
partir de imágenes satelitales de mediana resolución empleando regresión-kriging. Para
evaluar el desempeño del método se realizó un trabajo de clasificación de imágenes
satelitales, que se comparó con otras clasificaciones obtenidas mediante los métodos
Máquinas de Soporte Vectorial, Distancia Mahalanobis, Árboles de Decisión, Redes
Neuronales Artificiales y Bosques Aleatorios. La clasificación de cobertura de suelo se
realizó a partir de una imagen satelital SPOT 5. El área de estudio corresponde a una
zona central del casco urbano de la ciudad de Bogotá, Colombia; la herramienta que se
empleó en el procesamiento de la imagen fue el software “R”. Dentro de los resultados
del trabajo se encuentran la implementación de una metodología para clasificar
imágenes satelitales usando regresión-kriging, el código desarrollado en “R” para
clasificar imágenes mediante los seis métodos mencionados, los seis mapas de
clasificación, las matrices de confusión, los intervalos de confianza y otros índices que
permiten evaluar la exactitud de las clasificaciones. En términos generales todos los
métodos mostraron un buen desempeño en la tarea de clasificación y se comprobó que
en el caso de clasificación de cobertura de suelo en área urbana resulta ser más efectivo
el método regresión-kriging que considera no solo las características espectrales de la
imagen sino también la estructura de correlación espacial existente entre los datos.
PALABRAS CLAVE: Clasificación Temática, Regresión-kriging,
Geoestadística, Imagen Satelital.
Abstract
In this paper the classification of land coverage on urban area from medium resolution
satellite images using regression-kriging was proposed. In order to evaluate the
performance of the regression-kriging method was made a classification of a satellite
image, it was compared with other classifications obtained by the Support Vector
Machines, Distance Mahalanobis, Decision Trees, Artificial Neural Networks methods
and Random Forests. The classification of land coverage was made on a SPOT 5
satellite image. The study area corresponds to a central area of the city of Bogota,
Colombia; the program selected to process the image was the software "R". Within the
results of work is implementing a methodology for classifying satellite images using
regression-kriging, the code developed in "R" to classify images by the six with the
above methods, six classifications maps, the confusion matrices, the confidence
intervals and other indexes to evaluate the accuracy of the classification. All methods
showed a good performance in the classification task and thus it was found that in the
case of the classification of land cover in urban areas is more effective the regresión-
kriging method that considers not only the spectral characteristics of the image also
the structure of spatial correlation existing between the data.
Keywords: Tematic Classification, Regression-kriging, Geostatistical,
Satellite Image.
Lista de Tablas
Tabla 1. Modelo Teóricos de Semivarianza. [23] .......................................................... 21
Tabla 2. Algunas funciones de activación más empleadas [52] .................................... 34
Tabla 3. Coeficientes modelo de regresión multinomial ............................................... 59
Tabla 4. Test de normalidad para residuos ................................................................. 60
Tabla 5. Parámetros obtenidos al ajustar los semivariogramas para la clase 1 -
Edificaciones. Fuente: La investigación........................................................................ 61
Tabla 6. Parámetros obtenidos al ajustar los semivariogramas para la clase 2 –
Cuerpos de Agua. Fuente: La investigación. ................................................................ 61
Tabla 7. Parámetros obtenidos al ajustar los semivariogramas para la clase 3 -
Vías. Fuente: La investigación. .................................................................................... 62
Tabla 8. Matriz de confusión asociada a la clasificación realizada mediante modelo
multinomial. Fuente: La investigación. ........................................................................ 65
Tabla 9. Matriz de confusión asociada a la clasificación realizada mediante
regresión-kriging. Fuente: La investigación. ................................................................. 65
Tabla 10. Matriz de confusión asociada a la clasificación realizada mediante SVM.
Fuente: La investigación. ............................................................................................. 69
Tabla 11. Matriz de confusión asociada a la clasificación realizada mediante
Distancia Mahalanobis. Fuente: La investigación. ....................................................... 70
Tabla 12. Matriz de confusión asociada a la clasificación realizada mediante
Árboles de Decisión con la librería rpart. Fuente: La investigación. ........................... 70
Tabla 13. Matriz de confusión asociada a la clasificación realizada mediante RNA
(nnet). Fuente: La investigación. ................................................................................. 70
Tabla 14. Matriz de confusión asociada a la clasificación realizada mediante
Bosques Aleatorios. Fuente: La investigación. ............................................................. 70
Tabla 15. Resultado de la evaluación temática de las clasificaciones. Fuente: La
investigación. ................................................................................................................ 71
Lista de Figuras
Figura 1. Etapas del análisis geoestadístico[23] ........................................................... 10
Figura 2. Partes del Semivariograma. (a) Semivariograma acotado (b)
Semivariograma no acotado[30]. ................................................................................... 14
Figura 3. Representación Gráfica del Efecto Pepita[30] .............................................. 15
Figura 4. Red neuronal perceptrón multicapa de tres capas[2] .................................... 32
Figura 5. (a) La forma de la curva sigmoidal varía con el parámetro T. (b) La
ubicación de la función sigmoide ha cambiado después de que se suma o se resta
sesgo [2] ..................................................................................................................... 35
Figura 6. Ejemplo esquemático del concepto de regresión-kriging[59] ......................... 37
Figura 7. Un árbol de decisión general para seleccionar el modelo de predicción
espacial adecuada en base a los resultados de la estimación del modelo[59]. ............... 42
Figura 8. Dificultades para predecir los datos de clase punto (b) y (d), en
comparación con las variables cuantitativas (a) y (c), es que la clase-interpoladores
son típicamente más complejo y computacionalmente más tiempo[59]. ...................... 43
Figura 9. Metodología implementada para clasificar una imagen con regresión-
kriging. Fuente: La investigación. ................................................................................ 54
Figura 10. Recorte escena Spot 5 ciudad de Bogotá en composición RGB-342
identificando puntos representativos de la zona de estudio- Parque Metropolitano
Simón Bolívar (1), la Escuela Militar General Santander (2), una parte de campus
de la Universidad Nacional de Colombia (3), el estadio y coliseo el Campín (4), un
sector de los cerros orientales (5), UPZ San Miguel (6). Fuente: La investigación. .... 56
Figura 11. Identificación polígonos de entrenamiento sobre la zona de estudio –
Spot 5 ciudad de Bogotá en combinación RGB-324. Fuente: La investigación. .......... 57
Figura 12. Diagramas de dispersión de clases entre (a) banda 1 y banda 2, (b)
banda 1 y banda 3, (c) banda 1 y banda 4, (d) banda2 y banda 3, (e) banda 2 y
banda 4 y (f) banda 3 y banda 4. Fuente: La investigación. ....................................... 58
Figura 13. Histogramas de frecuencia para residuos (a) Clase 1 - Edificaciones, (b)
Clase 2 - Cuerpos de Agua, (c) Clase 3 - Vías, (d) Clase 4 - Pastos, (e) Clase 5 -
Nubes y (f) Clase 6 - Bosques Fuente: La investigación. ............................................. 59
Figura 14. Cálculo semivariograma muestral con estimador clásico por clase (a)
Clase 1 - Edificaciones, (b) Clase 2 - Cuerpos de Agua, (c) Clase 3 - Vías, (d) Clase
4 - Pastos, (e) Clase 5 - Nubes y (f) Clase 6 - Bosques Fuente: La investigación. ...... 61
Figura 15. Ajuste de modelo de semivarianza esférico clase (a) Clase 1 -
Edificaciones, (b) Clase 2 - Cuerpos de Agua, (c) Clase 3 - Vías. Fuente: La
investigación. ................................................................................................................ 62
Figura 16. Predicción de residuos y varianza de la predicción obtenida con kriging
simple (a) Predicción residuos Clase 1 - Edificaciones, (b) Varianza predicción
residuos Clase 1 - Edificaciones (c) Predicción residuos Clase 2 - Cuerpos de Agua,
(d) Varianza predicción residuos Clase 2 - Cuerpos de Agua, (e) Predicción
residuos Clase 3 -Vías y (f) Varianza predicción residuos Clase 3 - Vías. Fuente: La
investigación. ................................................................................................................ 63
Figura 17. Clasificación de la imagen obtenida mediante modelo multinomial.
Fuente: La investigación. ............................................................................................. 64
Figura 18. Clasificación de la imagen obtenida mediante regresión-kriging. Fuente:
La investigación. .......................................................................................................... 64
Figura 19. Clasificación de la imagen obtenida mediante el algoritmo SVM. Fuente:
La investigación. .......................................................................................................... 66
Figura 20. Clasificación de la imagen obtenida mediante el algoritmo Distancia de
Mahalanobis. Fuente: La investigación. ....................................................................... 67
Figura 21. Clasificación de la imagen obtenida mediante el algoritmo Bosques
Aleatorios. Fuente: La investigación. ........................................................................... 67
Figura 22. Clasificación de la imagen obtenida mediante el algoritmo Redes
Neuronales Artificiales (nnet). Fuente: La investigación. ............................................ 67
Figura 23. Clasificación de la imagen obtenida mediante el algoritmo Arboles de
Decisión usando la librería rpart. Fuente: La investigación. ........................................ 68
Figura 24. Comparación visual de la clasificación obtenida mediante el algoritmo
Arboles de Decisión usando la librería tree (a) (c) y la librería rpart (b) (d).
Fuente: La investigación. ............................................................................................. 69
Figura 25. Clasificación obtenida para el sector de los cerros orientales con los
métodos (a) SVM, (b) Distancia Mahalanobis, (c) Árboles de Decisión, (d) Bosques
Aleatorios, (e) RNA y (f) regresión-kriging. Fuente: La investigación. ....................... 73
Figura 26. Identificación zonas con problemas de clasificación realizada con los
métodos (a) SVM, (b) Distancia Mahalanobis, (c) Árboles de Decisión, (d) Bosques
Aleatorios, (e) RNA y (f) regresión-kriging, en el sector de la Esmeralda y Ciudad
Salitre. Fuente: La investigación. ................................................................................. 74
Figura 27. Identificación zonas con problemas de clasificación realizada con los
métodos (a) SVM, (b) Distancia Mahalanobis, (c) Árboles de Decisión, (d) Bosques
Aleatorios, (e) RNA y (f) regresión-kriging, en un tramo de la Av. El Dorado.
Fuente: La investigación. ............................................................................................. 75
Figura 28. Identificación cuadrante Av. NQS, Calle 80, Av. Caracas, Calle 45 sobre
la clasificación realizada con los métodos (a) SVM, (b) Distancia Mahalanobis, (c)
Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging.
Fuente: La investigación. ............................................................................................. 76
Lista de Abreviaturas
Significado Abreviatura
Aprendizaje computacional AC
Análisis exploratorio de datos AED
Análisis exploratorio de datos espaciales AEDE
Agencia nacional de hidrocarburos ANH
Red de resonancia adaptativa ART
Classification and regresion trees CART
Chi-square automatic interaction detector CHAID
Ciam, magenta, yellow, black CMYK
Dirección general marítima DIMAR
Departamento nacional de planeación DNP
Modelo lineal generalizado GLM
Alta resolución visible HRV
Matiz (hue), saturación (saturation), intensity (intensidad) HSI
Inteligencia artificial IA
Instituto de hidrología, meteorología y estudios ambientales IDEAM
Distancia inversa ponderada IDW
Instituto geográfico agustín codazzi IGAC
Instituto colombiano de geología y minería INGEOMINAS
Instituto de investigaciones marinas y costeras INVEMAR
Muestreo aleatorio simple MAS
Mínimos cuadrados generalizados MCG
Mínimos cuadrados ordinarios MCO
Mínimos cuadrados ponderados MCP
Mejor estimador lineal insesgado MELI
Máxima Verosimilitud ML
Multilayer perceptron MLP
Niveles digitales ND
Porcentaje correctamente clasificado PCC
Máxima Verosimilitud Restringida RML
Redes neuronales artificiales RNA
Instituto amazónico de investigaciones científicas SINCHI
Los mapas de características auto-organizado de kohonen SOM
Support vectorial machine SVM
Luminancia (luminance), en fase (in-phase), cuadratura (quadrature) YIQ
Agradecimientos
A mis padres por su apoyo incondicional, por su compañía y paciencia
A mi hermano por convertirse en un modelo de dedicación y disciplina
A mi director de tesis por acompañarme a lo largo mi vida académica
A todos los docentes que contribuyeron a lo largo de estos años a mi formación
profesional
Glosario
Aprendizaje Computacional: El aprendizaje computacional se refiere a las
técnicas, empleadas en computación, para crear programas que aprendan a realizar
una tarea de manera eficiente[1].
Árboles de Decisión: En los árboles de decisión el paso a través del árbol es lo
que explica la clasificación. Cada hoja contiene información sobre el número de
observaciones que caen en ella y la proporción para cada clase; la clase más densa
se selecciona como la clasificación para el nodo. Los árboles se pueden utilizar para
asignar puntajes a los datos, explorar datos, hacer clasificaciones y predicciones y
para comprender que variables son más importantes[2].
Bosques Aleatorios: se basan en el desarrollo de muchos árboles de clasificación,
donde para clasificar un nuevo objeto desde un vector de entrada, se ubica dicho
vector bajo cada uno de los árboles del bosque, posteriormente cada árbol genera
una clasificación, es decir cada árbol “vota” por una clase. Al final el bosque escoge
la clasificación teniendo en cuenta el árbol más votado sobre todos los del
bosque[3].
Datos espaciales: Un dato espacial puede definirse como la observación de una
variable asociada a una localización del espacio geográfico[4].
Estadística Espacial: Se puede definir como la reunión de un conjunto de
metodologías apropiadas para el análisis de datos que corresponden a la medición
de variables aleatorias en diversos sitios (puntos del espacio o agregaciones
espaciales) de una región. De manera más formal se puede decir que la estadística
espacial trata con el análisis de realizaciones de un proceso estocástico DxxZ :)(
, en el que representa una ubicación en el espacio euclidiano d-dimensional,
( ) es una variable aleatoria en la ubicación y varía sobre un conjunto de
índices D dR [5].
Estacionariedad: Propiedad de una variable regionalizada donde su función de
distribución conjunta es invariante respecto a cualquier translación del vector , o
lo que es lo mismo, la función de distribución del vector aleatorio ( )
[ ( ) ( ) ( )] es idéntica a la del vector ( ) [ ( ) (
) ( )] para cualquier . [5]
Estacionariedad Débil o Intrínseca: Cuando un fenómeno físico real tiene
varianza no finita se trabaja sólo con la hipótesis que pide que los incrementos
[ ( ) ( )] sean estacionarios, esto es: ( ) tiene esperanza finita y
constante para todo punto en el dominio, lo que implica que la esperanza de los
incrementos es cero. [ ( ) ( )] ; y para cualquier vector , la varianza
del incremento está definida y es una función única de la distancia [ ( )
( )] [ ( ) ( )] ( ). [5]
Estacionariedad Fuerte o de Segundo Orden: Sea { ( ) } una
variable regionalizada definida en un dominio contenido en (generalmente
una variable medida en la superficie de una región) se dice que ( ) es estacionario
de segundo orden si cumple: [ ( )] . El valor esperado
de la variable aleatoria es finito y constante para todo punto en el dominio; y
[ ( ) ( )] ( ) , para toda pareja { ( ) ( )} la covarianza
existe y es función única del vector de separación . [5]
Geoestadística: Área de la Estadística Espacial donde las ubicaciones S están
contenidas en un conjunto D continuo y son seleccionadas a juicio del investigador
(D fijo). E el investigador puede hacer selección de puntos del espacio a
conveniencia o puede seleccionar los sitios bajo algún esquema de muestreo
probabilístico[5].
Imágenes multiespectrales: Una imagen satelital es una matriz digital de
puntos capturada por un sensor montado a bordo de un satélite que orbita
alrededor de la tierra. A medida que el satélite avanza en su órbita, “barre” la
superficie con un conjunto de detectores que registran la energía reflejada. Las
multiespectrales sin imágenes que se captan mediante un sensor digital que mide la
reflectancia en muchas bandas. Por ejemplo, un conjunto de detectores puede
medir energía roja reflejada dentro de la parte visible del espectro mientras que
otro conjunto mide la energía del infrarrojo cercano[6].
Kriging: Métodos de interpolación geoestadística que tienen como columna
vertebral la estructura de correlación existente entre los datos[5].
Máquinas de Soporte Vectorial (SVM): son una técnica de clasificación de
aparición relativamente cercana y ha tomado mucha fuerza en años recientes; en
muchas aplicaciones, las SVM han mostrado tener gran desempeño, más que las
máquinas de aprendizaje tradicional como las redes neuronales y han sido
introducidas como herramientas poderosas para resolver problemas de
clasificación[7].
Mediana Resolución: La resolución de un instrumento de detección remota se
puede expresar en términos de su resolución espacial y radiométrica. Cuanto mayor
sea la resolución espacial más pequeños serán los objetos de tierra que se pueden
distinguir. La resolución espacial se relaciona con el campo de visión instantáneo
(IFOV) del sensor e indica el tamaño de la zona de la que el sensor recibe la
energía en el instante de tiempo dado [2]. Basado en la resolución espacial los
sistemas de sensores remotos o los datos obtenidos con estos pueden ser
categorizados en tres grupos: (i) Datos de baja resolución (>30 m), (ii) Datos de
mediana resolución (5 – 30 m) y (iii) Datos de alta resolución (<5 m)[8].
Redes Neuronales Artificiales (RNA): Se puede definir como modelos
matemáticos inspirados en sistemas biológicos, adaptados y simulados en
computadoras convencionales[9]. Una RNA es una estructura compuesta de un
número de unidades interconectadas (neuronas artificiales). Cada unidad posee una
característica de entrada/salida e implementa una computación local o función. La
salida de cualquier unidad está determinada por su característica de entrada/salida,
su interconexión con otras unidades y de sus entradas externas. Sin embargo la red
desarrolla usualmente una funcionalidad general a través de una o más formas de
entrenamiento[10].
Semivarianza: Es una función que define uno de los tres momentos de segundo
orden considerados en geoestadística para el conjunto de variables aleatorias Z(s) y
está dada por ( )
[ ( ) ( )] [11].
Contenido
Introducción ................................................................................................................... 2
1. Objetivos ........................................................................................................... 1
1.1. Objetivo General .......................................................................................................1
1.2. Objetivos Específicos .................................................................................................1
2. Hipótesis ........................................................................................................... 2
3. Marco Teórico ................................................................................................... 3
3.1. Conceptos básicos del análisis de datos geoestadísticos ............................................4
3.1.1. Referencia histórica .............................................................................................5
3.1.2. Etapas del análisis geoestadístico .......................................................................6
3.1.3. Métodos de interpolación geoestadísticos ......................................................... 16
3.2. Conceptos básicos de la clasificación de imágenes satelitales .................................. 22
3.2.1. Características básicas de las imágenes digitales .............................................. 22
3.2.2. Plataformas satelitales y sensores remotos ....................................................... 22
3.2.3. Clasificación de imágenes satelitales ................................................................. 23
3.2.4. Métodos convencionales y no convencionales para la clasificación de
imágenes ......................................................................................................................... 24
3.3. La regresión-kriging en la clasificación de imágenes satelitales ............................... 35
3.3.1. El mejor estimador lineal insesgado (MELI) para datos espaciales .................. 36
3.3.2. Kriging universal y kriging con deriva externa ................................................. 40
3.3.3. Predicción Espacial para variables categóricas ................................................. 43
4. Antecedentes ................................................................................................... 47
5. Metodología..................................................................................................... 53
5.1. Datos y AEDE ......................................................................................................... 55
5.2. Modelo de regresión multinomial ............................................................................. 58
5.3. Ajuste del semivariograma de los residuos .............................................................. 60
5.4. Método kriging sobre residuales .............................................................................. 62
6. Resultados ....................................................................................................... 64
7. Análisis de Resultados ..................................................................................... 72
8. Conclusiones .................................................................................................... 77
9. Recomendaciones y trabajos futuros ................................................................ 81
Referencias .................................................................................................................... 83
Anexos ......................................................................................................................... 94
Introducción
El acelerado desarrollo de medios tecnológicos para adquirir y almacenar grandes volúmenes
de datos espaciales ha generado la necesidad de diseñar herramientas y técnicas que permitan
extraer información confiable y útil a partir de esos datos, que pueda ser empleada para
estudios y análisis en diferentes áreas del conocimiento.
Las técnicas de análisis de imágenes digitales han tenido un desarrollo muy
importante en la última década. Su auge está en aumento debido, entre otras
cosas, a la creciente disponibilidad de imágenes ópticas y de micro-ondas de alta
resolución espacial y espectral.
Las técnicas de aprendizaje computacional (AC), empleadas para crear programas que
aprendan a realizar una tarea de manera eficiente, han marcado recientemente el camino
para recuperar grandes volúmenes de datos y extraer información. A pesar de lo anterior
persiste la necesidad de acudir a herramientas y técnicas cada vez más eficientes para el
análisis de datos en todas las áreas del conocimiento, pues no obstante la mayoría de
técnicas se centran en fundamentos comunes, estas deben ser específicas para cada una
de las disciplinas del saber.
El aprendizaje computacional abarca una serie de técnicas para predecir información, esa
predicción puede generar una estimación o una clasificación. La búsqueda y desarrollo de
métodos que brinden cada vez mejores resultados en las tareas de clasificación de
información espacial ha sido una preocupación y reto permanente de los investigadores.
Recientemente se han propuesto una serie de métodos no convencionales para la tarea de
predicción. Estos métodos han sido empleados en la estimación de información y también
han sido aplicados en problemas de clasificación, dentro de estos métodos se encuentran
las Máquinas de Soporte Vectorial (SVM) por sus siglas en inglés, los árboles de decisión,
los bosques aleatorios, las RNA, entre otros.
Existen métodos que se han desarrollado para estimar y clasificar información sin
considerar el componente espacial, pero por la naturaleza georreferenciada y
multidireccional de los datos geográficos, estos requieren un tratamiento especial. Los
algoritmos de AC han mostrado mejores resultados en el procesamiento y tratamiento de
datos, tanto geográficos como no geográficos, en contraste con otros métodos
convencionales como por ejemplo la máxima verosimilitud o la distancia Mahalanobis; no
obstante lo anterior todos estos métodos desconocen por completo el componente
espacial de los datos geográficos.
En la clasificación de cobertura de suelo a partir de imágenes satelitales el mayor número
de trabajos se han realizado sobre zonas rurales, no urbanizadas. En este sentido el
presente trabajo propone la regresión-kriging como una propuesta alternativa para mejorar
los resultados en la clasificación de cobertura de suelo en área urbana a partir de imágenes
satelitales de mediana resolución, pues dada la naturaleza georreferenciada y
multidireccional de los datos geográficos, se sugiere que una clasificación puede mostrar
mejores resultados si en ésta se involucran supuestos relacionados con la estructura de
correlación existente entre los datos muestreados de una variable específica.
Muchos de los análisis de tipo espacial que se realizan actualmente, gracias a la creciente
disponibilidad de datos geográficos, tienen que contrastarse con la literatura científica
existente, dado que la gran dimensión de las bases de datos y la multitud de formas de
obtenerlas dan lugar a un número de cuestiones que no siempre se resuelven
satisfactoriamente y requieren de un mayor esfuerzo de investigación[12, 13]. En la
mayoría de los casos, el tratamiento de las bases de datos espaciales no debe llevarse a
cabo directamente, tal como es proporcionada por los organismos o fuentes originales,
sino que exige un tratamiento que haga posible la obtención de una información lo más
precisa, depurada y operativa posible[4].
Cuando se habla de datos espaciales se hace referencia a la observación de una variable
asociada a una localización del espacio geográfico[4], por ejemplo en el caso de las
imágenes satelitales cuando se habla de los niveles digitales, se está haciendo referencia a
datos espaciales. Una característica particular de los datos geográficos es la correlación
que existe entre ellos "todo tiene que ver con todo, pero las cosas cercanas están más
relacionadas entre sí que las cosas lejanas"[14]; esta característica fundamental requiere
que a los datos geográficos se les dé un tratamiento especial.
En las tareas de clasificación de información espacial los algoritmos de AC (las RNA, las
SVM, método de máxima verosimilitud, etc) desconocen la importancia del componente
espacial y la estructura de correlación que existe entre estos datos espaciales, esta
omisión puede estar limitando el desempeño de los métodos y reduciendo el porcentaje
de información correctamente clasificada cuando se trata de datos distribuidos en el
espacio.
¿Emplear métodos geoestadísticos como la regresión-kriging, en el proceso de
clasificación de cobertura del suelo sobre imágenes satelitales de mediana resolución en
área urbana, arrojará mejores resultados en la evaluación de exactitud temática que los
obtenidos con métodos no convencionales?
1
1. Objetivos
A continuación se plantean los objetivos asociados al trabajo de clasificación de imágenes
satelitales propuesto.
1.1. Objetivo General
Aumentar los niveles de exactitud temática en la clasificación de cobertura de suelo a
partir de imágenes satelitales mediante la implementación de una metodología basada en
la regresión-kriging, con respecto a los niveles de exactitud temática obtenidos en la
clasificación realizada con métodos no convencionales.
1.2. Objetivos Específicos
1. Realizar una revisión de la teoría existente sobre regresión-kriging para abordar el
problema de clasificación de información.
2. Implementar una metodología para clasificar cobertura de suelo a partir de
imágenes satelitales, empleando la regresión-kriging.
3. Generar una clasificación de cobertura de suelo sobre una imagen satelital
multiespectral de mediana resolución en área urbana mediante la regresión-
kriging.
4. Evaluar el desempeño de la regresión-kriging versus el desempeño de cinco
métodos no convencionales empleados en la clasificación de imágenes satelitales:
(1) máquinas de soporte vectorial, (2) bosques aleatorios, (3) árboles de decisión,
(4) distancia Mahalanobis y (5) redes neuronales artificiales perceptrón multicapa.
2
2. Hipótesis
Emplear un método geoestadístico como la regresión-kriging en el proceso de clasificación
de imágenes satelitales mejorará los resultados de la evaluación en exactitud temática con
respecto a los obtenidos con métodos no convencionales (SVM, árboles de decisión,
distancia Mahalanobis, bosques aleatorios, RNA), si se tiene en cuenta que los métodos
geoestadísticos consideran el componente espacial de la información, en particular su
estructura de correlación, mientras que los otros métodos se basan solo en las características
espectrales de la imagen satelital; se espera que al emplear el método regresión-kriging en el
caso de estudio, donde se realizará cobertura de suelo a partir de una imagen satelital SPOT
5, el error de la clasificación se reduzca por lo menos un 1%, que el índice kappa aumente
0,3% y el rango del intervalo de confianza de la clasificación disminuya 0.25% 1, en contraste
con los resultados de exactitud temática obtenidos en las clasificaciones realizadas mediante los
otros métodos no convencionales ya mencionados.
1 Hace algunos años cuando apenas comenzaba a tomar fuerza el tema de clasificación de cobertura a partir de
imágenes satelitales, específicamente antes de la aparición de lo que se conoce como métodos no convencionales, era
usual que al realizar la evaluación de exactitud temática con un nuevo método de clasificación se superara al
anterior método propuesto en varios puntos porcentuales. Sin embargo en la actualidad los métodos han alcanzado
tal grado de refinamiento que el proponer uno nuevo que supere a los anteriores si quiera en un punto porcentual en
los indicadores de exactitud temática ya se constituye en un gran logro. Si se analiza desde otra persperctiva para
una imagen que cubra una extensión de terreno de 1000 hectáreas mejorar el porecentaje de información
correctamente clasificado en un 1% significa mejorar la clasificación sobre un área de 10 hectáreas.
3
3. Marco Teórico
Este trabajo propone la implementación de una metodología para aplicar la regresión-kriging
en la clasificación de cobertura de suelo a partir de imágenes satelitales y se presenta un
caso de estudio sobre una imagen satelital de mediana resolución2 que cubre un área urbana.
Se realizará un trabajo de clasificación de imágenes satelitales, la clasificación resultante de
aplicar la regresión-kriging se comparará con otras clasificaciones obtenidas mediante los
métodos SVM, Distancia Mahalanobis, Árboles de Decisión, RNA y Bosques Aleatorios.
En este sentido es posible identificar cuatro macro-temas que serán fundamentales en el
desarrollo del trabajo: (1) La naturaleza de los datos geográficos o espaciales, (2) la
definición de la estructura de correlación que existe entre dichos datos, (3) los
fundamentos teóricos de la regresión-kriging y los métodos geoestadísticos y (4) la
comparación del desempeño del método propuesto en contraste con los métodos de AC
existentes para la clasificación de una imagen satelital.
El marco teórico se estructurará entonces de la siguiente manera:
En la sección 3.1 se presentan los conceptos básicos del análisis de datos
geoestadístico, enfatizando en antecedentes histórico, análisis exploratorio y
estructural de datos, variables estacionarias y no estacionarias, modelado del
semivariograma, semivariogramas teóricos y los métodos de interpolación
geoestadísticos clásicos.
La sección 3.2 contiene toda la teoría de clasificación de imágenes satelitales,
incluyendo las características básicas de las imágenes digitales, plataformas
satelitales y sensores remotos, métodos convencionales y no convencionales
empleados en la clasificación de imágenes satelitales.
La sección 3.3 incluye la revisión de la regresión-kriging y algunas consideraciones
relacionadas con kriging universal y kriging con deriva externa.
2 Basado en la resolución espacial los sistemas de sensores remotos o los datos obtenidos con estos pueden
ser categorizados en tres grupos: (i) Datos de baja resolución (>30 m), (ii) Datos de mediana resolución (5
– 30 m) y (iii) Datos de alta resolución (<5 m)
4
3.1. Conceptos básicos del análisis de datos geoestadísticos
Un dato espacial puede definirse como la observación de una variable asociada a una
localización del espacio geográfico. También puede ser definido como un elemento u objeto
que se encuentra ubicado sobre o bajo la superficie terrestre y que cuenta con características
o propiedades como la posición absoluta, posición relativa, forma o geometría y atributos[4].
En particular los datos espaciales se caracterizan por su naturaleza georreferenciada, es decir,
que su posición relativa o absoluta sobre el espacio contiene información valiosa para
interpretar las relaciones consideradas. Por otra parte el espacio geográfico se caracteriza por
la multidireccionalidad de las relaciones que sobre él se establecen y la multidimensionalidad:
efectivamente, en un área geográfica no es posible distinguir entre pasado, presente, futuro,
sino que todo es presente, todo es pasado y todo es futuro[4].
En concordancia con la primera ley de la geografía, según la cual "todo tiene que ver con
todo, pero las cosas cercanas están más relacionadas entre sí que las cosas lejanas"[14],
el efecto dependencia o autocorrelación espacial es inherente a los datos espaciales y
consiste en la falta de independencia que se produce a menudo entre las observaciones de
datos de corte transversal[4]. La dependencia espacial podría ser definida como la existencia
de una relación funcional entre lo que ocurre en un punto determinado del espacio y lo que
ocurre en otro lugar[15]. Es decir, una variable se encontrará espacialmente
autocorrelacionada cuando los valores observados en un lugar determinado dependen, no
sólo de ciertos factores externos (otras variables), sino de los valores observados en
regiones vecinas[4].
La estadística espacial se puede definir como la reunión de un conjunto de metodologías
apropiadas para el análisis de datos que corresponden a la medición de variables
aleatorias en diversos sitios (puntos del espacio o agregaciones espaciales) de una región.
De manera más formal se puede decir que la estadística espacial trata con el análisis de
realizaciones de un proceso estocástico DssZ :)( , en el que s dR representa una
ubicación en el espacio euclidiano d-dimensional, Z(s) es una variable aleatoria en la
ubicación s y s varía sobre un conjunto de índices D dR . La geoestadística es el área de
la estadística espacial donde las ubicaciones s están contenidas en un subconjunto D fijo
continuo de dR con volumen d-dimensional positivo. En otras palabras el índice espacial
s varia continuamente a lo largo de la región D[16].
5
Kriging es un método que minimiza el error medio cuadrático de la predicción espacial que
(generalmente) depende de las propiedades de segundo orden del proceso ( ). Matheron
denominó a estos métodos de predicción lineal óptima espacial, posteriormente D. G. Krige,
un ingeniero de minas de Sudáfrica, quien en la década de los 50’s, desarrolló métodos
empíricos para determinar las distribuciones verdaderas del grado de minerales a partir de
distribuciones basadas en muestreos del grado de minerales. Sin embargo, la formulación de
predicción óptima lineal espacial no vino de la obra de Krige. Las contribuciones de Wold,
Kolmogorov, y Wiener contienen ecuaciones de predicción lineal óptimas que reflejan la idea
de que a las observaciones más cerca del punto de predicción (para ellos, más cerca en el
tiempo) se les debe dar más peso en el predictor[16].
Al mismo tiempo que la geoestadística fue desarrollando en ingeniería de minas por G.
Matheron en Francia, las mismas ideas fueron desarrolladas en meteorología por L. S.
Gandin en la Unión Soviética. La contribución original (y simultánea) de estos autores fue
poner predicción lineal óptima (en términos de variogramas) en un entorno espacial. El
nombre que dio Gandin a su enfoque era análisis objetivo, y utilizó la terminología de
interpolación óptima en lugar de kriging[16].
Desde su aparición hasta el día de hoy los métodos geoestadísticos kriging han sido
empleados en la predicción de información espacial. Los kriging son métodos de interpolación
por excelencia y se han aplicado con éxito en diversas áreas del conocimiento como la
minería, la hidrología, la física del suelo, las ciencias de la tierra y más recientemente al
monitoreo ambiental y al procesamiento de imágenes de satélite[5].
3.1.1. Referencia histórica
Entre los primeros trabajos que realizaron un manejo de los métodos que hoy se
enmarcan en el concepto de la geoestadística están los de Sichel[17, 18], quien observó la
naturaleza asimétrica de la distribución del contenido de oro en las minas surafricanas, la
equiparó a una distribución de probabilidad lognormal y desarrolló las fórmulas básicas
para esta distribución; esto permitió una primera estimación de las reservas, pero bajo el
supuesto de que las mediciones eran independientes, en clara contradicción con la
experiencia de que existen zonas más ricas que otras. Posteriormente Krige[19] realiza
una primera aproximación a la solución del problema que se había quedado planteado
con los trabajos de Sichel. Él propuso una variante del método de medias móviles, el cual
puede considerarse como el equivalente al kriging simple[5].
6
En los años 60, Matheron acuñó el término de geoestadística. Reconocido como el padre
de esta disciplina, Matheron[20] en la escuela de minas de París, formalizó, generalizó
matemáticamente y dio solución al problema de la predicción de datos. Él definió a la
geoestadística como "la aplicación del formalismo de las funciones aleatorias al
reconocimiento y estimación de fenómenos naturales".
En los años sucesivos la teoría se fue depurando, ampliando su campo de validez y
reduciendo las hipótesis necesarias[21]. De la minería las técnicas geoestadísticas, se han
"exportado" a muchos otros campos como hidrología, física del suelo, ciencias de la tierra
y más recientemente al monitoreo ambiental y al procesamiento de imágenes de
satélite[22].
La geoestadística es un conjunto de técnicas usadas para analizar y predecir valores de
una propiedad distribuida en espacio o tiempo. En contraposición con la estadística
clásica o convencional, tales valores no se consideran independientes, por el contrario se
suponen de manera implícita que están correlacionados unos con otros, es decir que
existe una dependencia espacial[5].
3.1.2. Etapas del análisis geoestadístico
La geoestadística es solo una de las áreas del análisis de datos espaciales. Por esto es
importante reconocer cuándo la información georreferenciada es susceptible de ser
analizada por medio de dicha metodología[5].
Desde el punto de vista de la geoestadística, la primera etapa para desarrollar un análisis
de los datos se enfoca en la concepción del problema. En esta etapa es importante el
análisis de la calidad y cantidad de datos que se emplearán en el desarrollo del estudio,
así como la estructura de los metadatos; sobre todo resulta indispensable determinar si
los métodos que brinda la geoestadística son convenientes para realizar el trabajo. Estas
consideraciones no solo se tienen en cuenta en la geoestadística, sino en todas aquellas
que involucren un tratamiento de información espacial[23].
La segunda etapa del análisis es conocida como análisis exploratorio y estructural de
datos; la parte exploratoria se refiere al uso de técnicas estadísticas convencionales para
obtener toda la descripción de los datos, como distribuciones, medidas de tendencia
central, entre otras. En el análisis estructural lo que se busca es detectar la presencia de
anisotropía o isotropía del proceso estocástico, esta se asocia a la variabilidad y
comportamiento de los datos en el espacio, a la vez que se busca la presencia de
7
tendencia en la serie de datos. Estos dos elementos, variabilidad y tendencia, se
encuentran asociados a la estacionariedad, que es el concepto clave en esta etapa, en
última instancia lo que pretende el análisis estructural es determinar si el fenómeno que
se estudia se comporta como un proceso estacionario[23]. Si el proceso no es estacionario,
es decir que la función de distribución conjunta del proceso estocástico sea invariante con
respecto a cualquier traslación del vector posición, en la siguiente etapa del análisis se
obtendrá un modelo de ruido blanco si se emplean métodos kriging no apropiados, por
ejemplo Díaz[24] propone como modos habituales para el manejo de la no estacionaridad
la aplicación del método kriging universal o las funciones aleatorias intrínsecas de orden
k.
Los datos susceptibles de ser tratados con técnicas geoestadísticas no se consideran
independientes, por el contrario se supone de manera implícita que están correlacionados
unos con otros, es decir que existe una dependencia espacial. Intuitivamente esto indica
que mientras más cercanos estén situados dos puntos están más correlacionados y
mientras más separados hay menos relación entre estos (Ley de Tobler). El proceso de
estimación y modelación de la función que describe la correlación espacial, forma parte
de la tercera etapa del análisis “el modelado del semivariograma”. En algunos casos
también se emplean otras funciones como el covariograma y el correlograma, sin
embargo la información requerida para calcular el semivariograma es de más fácil
obtención que la requerida por las otras dos funciones, sin que existan en los resultados
del semivariograma y de los otros modelos diferencias en la descripción de la estructura
de correlación de los datos, siempre y cuando se cumpla la hipótesis de estacionariedad
de segundo orden[23]. En las aplicaciones en geoestadística lineal resulta suficiente
estimar los momentos hasta de segundo orden, no obstante en la mayoría de los casos la
información disponible no permite inferir momentos de orden superior[11].
Una vez se ha realizado la selección del modelo de semivarianza, se procede a realizar la
tarea de predicción. Este proceso se puede realizar mediante el uso de métodos de
interpolación kriging o a través de “simulaciones condicionales”, aunque también existen
métodos de interpolación determinísticos. Esta es la cuarta etapa del análisis[23].
En los métodos kriging es común trabajar con kriging puntuales, como kriging ordinario,
simple y universal, entre otros, los cuales indican el valor que puede tomar la variable
regionalizada en un punto. Sin embargo, así como se trabajan con puntos aislados
también se suele trabajar la interpolación en bloques. En general los métodos se pueden
combinar, todo depende de las características de los datos y de lo que se desee hacer con
ellos. Por ejemplo si la variable tiene tendencia es mejor usar un método como kriging
8
universal no perdiendo de vista que es diferente modelar tendencia a eliminar
tendencia[23].
Una vez culmina el proceso de interpolación, en la quinta etapa se realiza una selección
del método por medio de una validación cruzada. En los métodos kriging cuando se
pronostica el valor de una variable en un punto que fue muestreado se obtiene como
resultado el mismo valor, por lo que en principio la evaluación de los errores al realizar
pronósticos se dificulta. La validación cruzada consiste en quitar un punto considerado
en el modelado del semivariograma para realizar los pronósticos haciendo uso de los
métodos de interpolación[23].
Una vez se ha evaluado el buen ajuste del modelo de semivarianza a los datos y se ha
verificado la bondad de los resultados obtenidos con los métodos de interpolación
kriging, que para el caso del presente trabajo será el kriging simple, viene la sexta y
última etapa del análisis geoestadístico, donde se elaboran salidas como los mapas de
probabilidad y de desviaciones estándar, acompañados de su interpretación, análisis y
conclusiones[23].
El diagrama 1 (Pág. 10) resume las etapas del análisis geoestadístico y presenta los
elementos representativos de cada una.
3.1.2.1. Análisis Exploratorio y Estructural de Datos Espaciales
El análisis exploratorio de datos espaciales (AEDE) es un conjunto de técnicas
destinadas a detectar esquemas de asociación espacial, concentraciones locales y
regímenes espaciales presentes en un conjunto de datos para los que las características de
localización resultan esenciales[25].
El análisis exploratorio de datos (AED) podría definirse como el conjunto de
herramientas gráficas y descriptivas utilizadas para el descubrimiento de patrones de
comportamiento en los datos y el establecimiento de hipótesis con la menor estructura
posible[26].
De este modo, es posible obtener una estructura explicativa de los datos a través de unas
técnicas que combinan herramientas de estadística básica (descriptivos, correlaciones,
tablas de frecuencias o de correlación cruzada) con análisis multivariante avanzado,
especialmente diseñado para identificar formas en grandes bases de datos[4].
9
El AEDE sirve pues para describir y visualizar las distribuciones espaciales de los datos,
para identificar los esquemas de asociación espacial dominantes y las localizaciones
atípicas, consiste en la aplicación de estadística descriptiva que permite observar los
datos, para tener una idea de cuál es su estructura[27]. Los objetivos principales de esta
etapa son: describir los datos, investigar la calidad de estos, buscar posibles estructuras o
patrones sin realizar ninguna hipótesis matemática acerca de la estructura de estas
observaciones o variables, examinar los datos previamente a la aplicación de cualquier
interpolador (lineal o no lineal) y obtener un conocimiento inicial de los datos y de las
relaciones entre las variables.
Para realizar un AEDE conviene seguir los siguientes pasos[28]:
1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.
2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar,
para el caso de estudio serán los niveles digitales de la imagen satelital en cada una de
las bandas, y un análisis descriptivo numérico que permita cuantificar algunos
aspectos gráficos de los datos.
3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un
análisis descriptivo numérico que cuantifique el grado de interrelación existente entre
ellas.
4) Evaluar, supuestos básicos como normalidad, tendencia.
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que
puedan ejercer en análisis estadísticos posteriores.
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
El análisis estructural consiste en estimar y modelar una función que refleje la
correlación espacial de la variable regionalizada, en el caso de este trabajo será la clase
asociada a la cobertura de suelo, a partir de la adopción razonada de la hipótesis más
adecuada acerca de su variabilidad. Esto quiere decir, que dependiendo de las
características de estacionaridad del fenómeno, se modelará la función de covarianzas o
la de semivarianzas[11].
10
Cantidad de datos
Obtención y manejo de datos espaciales Calidad de los datos
Metadatos
AnisotropVariabilidadAnálisis Exploratorio y
Estructural de Datos Espaciales
Etapas del análisis
Geoestadístico
ía
Isotropía
Tendencia
Modelo Experimental Modelamiento del Semivariagrama
Modelo Teórico
Kriging ordinario
Kriging simple
Kriging universalMétodos Geoestadísticos
Kriging
Métodos de Interpolación
en bloques
Kriging indicador
Kriging probabilistico
IDW
Interpolación polinomial local
Métodos determinísticos Interpolación polinomial global
Funciones de base radial
Polígonos de Voronoi
Selección de Método Validación Cruzada
Elaboración de salidas, Interpretación y Análisis
Figura 1. Etapas del análisis geoestadístico[23]
11
3.1.2.2. Variables estacionarias y no estacionarias
Sea ( ) una variable regionalizada entonces el vector aleatorio { ( ) ( ) ( )}
se caracteriza por su función de distribución de probabilidad n-variada:
( ) ( ) ( )( ) [ ( ) ( ) ( ) ] (1)
Se dice que una variable regionalizada es estrictamente estacionaria si su función de
distribución (Ec. 1) es invariante a cualquier traslación respecto a un vector o lo que
es equivalente, la función de distribución del vector aleatorio { ( ) ( ) ( )} es
idéntica a la del vector { ( ) ( ) ( )} para cualquier [11].
Se dice que una función aleatoria es estacionaria de segundo orden si se cumple que:
1. su valor esperado existe y no depende de
[ ( )] (2)
2. para cualquier par de variables regionalizadas ( ) y ( ), su covarianza
existe y solo depende del vector de separación [11].
Bajo esta hipótesis el semivariograma ( ), también es estacionario y se cumple que:
( )
[ ( ) ( )]
(3)
Además existe una relación directa entre el semivariograma y la función de covarianza
( ):
( ) ( ) ( ) (4)
Existen variables regionalizadas ( ) que representan a fenómenos físicos que muestran
una capacidad casi ilimitada de variación, por lo que para estas variables no están
definidas la varianza ni la covarianza. Sin embargo existen casos en que sus incrementos
o diferencias ( ) ( ) tienen una varianza finita. En otras palabras, esto quiere
decir que las diferencias son estacionarias de segundo orden[11].
Las variables regionalizadas intrínsecas son aquellas que cumplen las siguientes
condiciones:
12
1. El valor esperado de las diferencias es
[ ( ) ( )] (5)
2. La varianza de las diferencias es
[ ( ) ( )] ( ) (6)
Estas condiciones se conocen como Hipótesis Intrínseca. Es evidente que una función
aleatoria estacionaria de segundo orden es siempre intrínseca. Lo contrario no se cumple.
A las funciones que cumplen con la hipótesis intrínseca se les considera como débilmente
estacionarias[11].
Las variables regionalizadas no estacionarias son aquellas cuya esperanza matemática
depende de
[ ( )] ( ) (7)
A ( ) se le conoce como función de deriva o tendencia[11].
3.1.2.3. Modelado del Semivariograma
El semivariograma, es la herramienta central de la geoestadística. Dada una variable
regionalizada ( ) que cumpla la Hipótesis Intrínseca entonces existe la función
semivarianza y se define como sigue:
( ) [ ( ) ( )] (8)
( ) [ ( ) ( )] ( [ ( ) ( )]) ⏟
(9)
( )
[ ( ) ( )] (10)
La función de semivarianza caracteriza a las propiedades de dependencia espacial del
proceso estocástico[11].
13
El semivariograma es una función que relaciona la semivarianza con el vector conocido
como "lag" o “rezago”, el cual denota la separación en distancia y dirección de cualquier
par de valores ( ) y ( ), [ ] .
Existes varios estimadores del semivariograma, el estimador más común es
( )
( )∑[ ( ) ( )]
( )
(11)
Siendo ( ) el número de pares ( ) y ( ) separados a una distancia | |.
Otro estimador es el de Cressie y Hawkins, este constituye una alternativa robusta al
estimador tradicional y se define como:
( )
(
( ))
[
( )∑[| ( ) ( )|]
( )
]
(12)
De estos modelos se obtiene el semivariograma experimental[11].
3.1.2.4. Semivariogramas teóricos
El semivariograma experimental presentado en la sección anterior, es calculado sólo para
algunas distancias promedios particulares, ahora se hace necesario ajustar un modelo
donde se generalice lo observado en este semivariograma para cualquier distancia.
Existen diversos modelos teóricos de semivarianza que pueden ajustarse al
semivariograma experimental. En general dichos modelos pueden dividirse en no
acotados p.e. lineal, logarítmico, potencial y acotados p.e. esférico, exponencial,
gaussiano[29].
En la selección de una función adecuada para ser ajustada a un semivariograma teórico,
se debe tener en cuenta hasta tres elementos, en la mayoría de las casos: un intercepto
con la ordenada, una sección monótonamente creciente y una meseta. Sin embargo, no
servirá cualquier modelo que aparente ajustar a los valores empíricos debido a la
siguiente razón[11].
14
No cualquier función sirve como modelo de semivariograma, solo las funciones que
cumplen con las siguientes condiciones se denominan modelos autorizados del
semivariograma:
1. ( ) debe ser condicionalmente negativa semidefinida.
2. El semivariograma debe tener un ritmo de crecimiento inferior a , es decir se
debe cumplir que
( )
(13)
Como una propiedad importante se debe destacar que cualquier combinación lineal de
modelos autorizados es un modelo autorizado[11].
Normalmente el semivariograma es una función monótona no decreciente, ya que al
aumentar también aumenta, al menos en forma cuadrática, la diferencia entre ( ) y
( ) ; por lo general en el semivariograma son identificables tres partes fácilmente:
el efecto pepita ( ), la meseta (a) y el rango ( ), esto ocurre si se está ante un
semivariograma acotado (Figura 2a)[30].
(a) (b)
Figura 2. Partes del Semivariograma. (a) Semivariograma acotado (b) Semivariograma no acotado[30].
El efecto pepita: Aunque teóricamente ( ) , con frecuencia el semivariograma es
discontinuo en el origen con un salto finito que se conoce como Pepita, Efecto Pepita o
“Nugget”; éste se denota por (Figura 3) y representa una discontinuidad puntual del
semivariograma en el origen. Esto puede deberse a errores de medición en la variable o
15
en la escala de la misma. En algunas ocasiones puede ser indicativo de que parte de la
estructura espacial se concentra a distancias inferiores a las observadas[30].
Ahora bien, la varianza puede expresarse como sigue:
(14)
donde es la varianza de la variable regionalizada ( ),
es el ruido blanco del
modelo de semivarianza, es el error de micro escala, es la varianza de la variable
regionalizada ( ) [30].
Entonces el efecto pepita estará dado por:
(15)
Figura 3. Representación Gráfica del Efecto Pepita[30]
La meseta: Si ( ) es estacionaria, ( ) alcanza un valor límite constante llamado
meseta que coincide con la varianza de la variable regionalizada (Ec. 14); en otras
palabras la meseta es la cota superior del semivariograma o si se prefiere también puede
definirse como el límite del semivariograma cuando la distancia tiende a infinito. La
meseta puede ser o no finita (Figura 2). Los semivariogramas que tienen meseta finita
cumplen con la hipótesis de estacionariedad fuerte, mientras que si ocurre lo contrario, el
semivariograma describe un fenómeno que cumple solo con la hipótesis intrínseca
(estacionariedad débil). La meseta se denota como o por cuando la pepita es
diferente de cero[30].
16
Si la pepita se asocia a un error de las mediciones, se explica la afirmación de que en un
modelo que represente bien la realidad la pepita no debe representar más del 50% de la
meseta. Si el ruido espacial en las mediciones explica en mayor proporción la variabilidad
que la correlación del fenómeno, las predicciones que se obtengan pueden ser muy
imprecisas[30].
El rango: La distancia a la que el semivariograma alcanza la meseta se denomina rango
o alcance y marca la zona de influencia en torno a un punto, más allá de la cual la
autocorrelación es nula. En términos prácticos corresponde a la distancia a partir de la
cual dos observaciones son independientes[30].
Existen algunos modelos de semivariograma en los que no existe una distancia finita
para la cual dos observaciones sean independientes, así que se acuñó el término rango
efectivo para referirse a la distancia para la cual el semivariograma alcanza el 95% de la
independencia espacial. El rango no siempre aparece de manera explícita en la fórmula
del semivariograma[30].
Dependiendo de las características del rango, el efecto pepita y la meseta, los modelos
teóricos de semivariograma pueden ser esférico, exponencial, gaussiano, de pepita puro o
monómico; por ejemplo, en el modelo esférico se puede observar un crecimiento casi
lineal y después a cierta distancia finita del origen se alcanza la meseta, mientras que un
modelo exponencial, crece inicialmente más rápido y después se estabiliza de forma
asintótica[30].
En un modelo gaussiano al igual que en el exponencial, la dependencia espacial tiende a
desaparecer cuando la distancia tiende al infinito, además se caracteriza por su
comportamiento parabólico cerca al origen. Cuando se habla de un modelo monómico se
trata de modelos que no alcanzan la meseta y un modelo de pepita puro es aquel que
indica la falta de correlación espacial entre las observaciones de una variable. En la
Tabla 1 (Pag. 21) se resumen algunos modelos teóricos de semivariograma, su función de
covarianza y su función de semivarianza. La selección de modelos tiene como objetivo
último el comparar varios modelos alternativos con el objeto de elegir el más
adecuado[30].
3.1.3. Métodos de interpolación geoestadísticos
La geoestadística, estudia las variables distribuidas espacialmente, partiendo de una
muestra representativa del fenómeno en estudio, utilizando como elemento fundamental
17
el análisis de la distribución espacial de información disponible, proponiendo la
minimización de la varianza del error de estimación, obteniéndose el mejor estimador
lineal insesgado (MELI), el kriging[31].
El método de interpolación geoestadístico se conoce como kriging, en reconocimiento al
aporte inicial de D.G. Krige. Dentro de su formulación matemática se incluyen dos
restricciones básicas, en las que se limita la suma de los errores de estimación a ser cero
y el cuadrado de las desviaciones a ser mínimo. La restricción establecida sobre la
varianza de estimación, hace que el kriging sea el MELI[23].
Sea ( )iZ S el valor de una variable cualquiera, medida en el punto iS con i =1,..., n,
donde n representa la cantidad de puntos pertenecientes a un plano referenciado con
respecto a un sistema de coordenadas cualquiera (planas, cartesianas, geográficas, etc.).
El objetivo del kriging en general es estimar el valor de la variable en un punto 0S no
medido con anterioridad. Para esto, realiza una suma ponderada sobre todos los puntos
de muestra, de manera tal que el valor estimado para el punto 0S es:
( ) ( ) ( ) ( ) (16)
n
i
ii SZSZ1
0 )()(ˆ (17)
Donde 0
ˆ( )Z S es el valor estimado, corresponden a los valores de los pesos
asignados y ( ) ( ) ( ) ( ) , son los valores de los puntos conocidos en
general[23]. Los pesos son calculados de acuerdo a los siguientes criterios:
1. El valor estimado debe ser insesgado: en este caso la suma de los pesos debe ser igual
a uno, para que los errores de predicción tengan promedio cero.
2. La varianza de estimación debe ser mínima, para que los pesos minimicen el error de
predicción[23].
Para resolver el sistema de ecuaciones del kriging, se requiere información sobre las
dependencias espaciales que caracterizan a cada unidad analizada. Estas son
proporcionadas por los modelos de semivarianza, los semivariogramas[23].
Si no existe tendencia significativa de manera que se puede considerar que la variable es
estacionaria de segundo orden o al menos que sea intrínseca, es decir, que las diferencias
18
sean estacionarias de segundo orden, entonces se puede estimar la propiedad mediante
algún método kriging[23].
Existen diversos métodos kriging, el uso de uno u otro está en función del análisis
estructural que se realizó en una etapa previa. En el caso de existencia de tendencia, esta
se puede modelar al estimar la propiedad si se aplica el método de kriging Universal,
pero este método tiene el inconveniente que requiere no solo conocer la función de
semivarianzas, sino también la forma de la tendencia lo cual resulta muy difícil a priori
y en general es un método de prueba y error algorítmicamente complicado. Es preferible
en tal caso usar el método conocido como kriging residual, el cual consiste en determinar
de manera iterativa la tendencia como una función polinomial, para posteriormente
aplicar el método de kriging ordinario a los residuos obtenidos que deben ser
estacionarios, de manera que el valor estimado en un punto sería la suma de la tendencia
más la estimación por kriging ordinario en dicho punto[23].
La mayoría de métodos kriging no son adecuados para el tratamiento de variables
dicotómicas, ya que en sus supuestos se requiere que los datos sigan una distribución
gaussiana y debido a la naturaleza discreta de estos datos tal supuesto no se cumple. Al
igual que con la regresión lineal estándar, sin embargo es posible generalizar la técnica de
kriging a datos no gaussianos. En particular, es posible utilizar lo que Reich[32]
denomina kriging categórico. En este método la probabilidad de que un punto
pertenezca a la categoría está dada por
( ) { }
donde es el número de categorías[33]. El objetivo es encontrar la estimación de ( ),
denotado por ( ), para cada categoría y luego elegir la categoría con la mayor
"probabilidad" estimada como el valor en ubicación , esto sujeto a la restricción
∑ ( )
(18)
para todas las ubicaciones, [33].
La forma general de la estimación para ( ), es similar a la estimación del kriging
ordinario, así
( ) ∑ ( ) (19)
19
donde ( ) es 1 si el valor en la ubicación cae en la categoría y cero en caso
contrario[33]. Para verificar la restricción (Ec. 18) es suficiente asumir que los pesos, ,
son constante para todas las categorías (es decir ) e imponer la
condición insesgamiento ∑ [34].
Empleando una aproximación geoestadística para encontrar el nuevo estimador
( ) ∑ ( ) (20)
Se requiere el uso de una sola covarianza para todas las categorías, que puede ser
definida como la probabilidad de dos puntos separados por un vector, , que pertenecen
a la misma categoría [35]. Específicamente, se define
( ) {∑ ( ( ) ( )) } (21)
Se desea encontrar el estimador que minimiza la suma esperada de las diferencias
cuadradas entre los valores estimados y los valores reales. Es decir, se desea minimizar la
cantidad
∑ { ( ) ( )} (22)
La minimización de (Ec. 22) no implica que el error para cada categoría se reduzca al
mínimo. Sin embargo, es lo deseado para encontrar un estimador consistente en todo el
conjunto [35].
Reducir al mínimo (Ec. 22) sujeto a la restricción de que ∑ conduce al sistema
clásico de kriging
∑ ( ) ( ) (23)
donde ( ) ( ) y es el vector de distancia entre los puntos e . Los pesos
resultantes aseguran que la restricción dada en la (Ec. 18) se satisface y que la (Ec. 22)
se reduce al mínimo[33].
Como se dijo anteriormente, la práctica general es obtener las estimaciones ( ), para
cada ubicación, , y utilizar como la categoría pronosticada para un lugar determinado
esa categoría cuya estimación asociada es la mayor. Suponiendo una distribución
20
multinomial, una estimación del error estándar de la predicción asociado con la
probabilidad de la clasificación de una ubicación en una categoría dada, viene dada por
( ( )) √ ( )( ( )) ( ) (24)
donde es el número de vecinos más cercanos utilizados por el método kriging[32].
En algunos casos resulta útil pensar en diseños de redes. Los errores estándar dados en
(Ec. 24) tienen algunos inconvenientes para decidir sobre un diseño óptimo de red. En
particular, es posible seleccionar una categoría en particular, es decir un , para un sitio,
, con los ( ) cuando esa categoría no es en realidad la que corresponde a la
ubicación. A pesar de esto, el error estándar de la predicción es cero; lo que implica que
la predicción no presenta error a pesar de estar mal. Los métodos presentados hasta
ahora proporcionan una manera de emplear información de los sitios que se encuentran
en el vecindario de una ubicación de interés para la predicción de esta. Sin embargo, no
está claro cómo utilizar esta información para determinar qué diseño de red es
"mejor"[33].
Específicamente, para un conjunto dado de puntos candidatos, , se denota el conjunto
de puntos de diseño como , donde , entonces un criterio de promedio general es
un promedio de puntos cubiertos en la región de diseño. Esto es
(∑ (∑ ( ) )
)
(25)
donde , son parámetros y ( ) es una distancia métrica o una diferencia
métrica. Es decir, si la función de covarianza (Ec. 21) es considerada como una matriz de
correlación (todos los valores se encuentran entre cero y uno), entonces una diferencia
métrica haría ser ( ) ( ) , donde ( ) ( ) y es el vector de
distancia entre y . Los grandes valores negativos de tienden a producir diseños que
son más dispersos y como y el resultado da un diseño clásico
minimax[33].
Otros métodos kriging son los presentados en el Diagrama 1 del presente trabajo.
21
Tabla 1. Modelo Teóricos de Semivarianza. [23]
MODELO FUNCIÓN DE SEMIVARIANZA FUNCIÓN DE COVARIANZA GRAFICA ( )h
Modelo
s acota
dos
o t
ransi
tivos
Modelo
efecto
pepita 0
0 si 0( )
si 0
hh
C h
0 si 0( )
0 si 0
C hC h
h
Modelo
lineal
con
meseta
0 1
0 1
si 0( )
si
hC C h a
h a
C C h a
1 1 si 0( )
0 si
hC h a
C h a
h a
Modelo
esférico
3
0 1
0 1
0 si 0
3 1( ) si 0
2 2
si
h
h hh C C h a
a a
C C h a
0 1
3
1
si 0
3 1( ) 1 si 0
2 2
0 si
C C h
h hC h C h a
a a
h a
Modelo
exponencial
3
0 1 1 si 0( )
0 si 0
h
aC C e hh
h
3
1
0 1
si 0( )
si 0
h
aC e hC h
C C h
Modelo
gaussiano
2
2
3
0 1 1 si 0( )
0 si 0
h
aC C e h
h
h
2
2
3
1
0 1
si 0( )
si 0
h
aC e h
C h
C C h
Modelo
de
efecto
agujero
0 1
( )1 si 0
( )
0 si 0
sen hC C h
h h
h
1
0 1
( ) si 0
( )
si 0
sen hC h
C h h
C C h
22
3.2. Conceptos básicos de la clasificación de imágenes
satelitales
A continuación se presenta la teoría de clasificación de imágenes satelitales, incluyendo
las características básicas de las imágenes digitales, plataformas satelitales y sensores
remotos, métodos convencionales y no convencionales empleados en la clasificación de
imágenes satelitales.
3.2.1. Características básicas de las imágenes digitales
Una imagen digital es un arreglo bidimensional, es decir, matrices que almacenan
números enteros o los mismos niveles digitales (ND), que expresan la reflectancia de la
superficie terrestre. Hay que tener presente que una imagen no es una sola matriz son m
matrices y m depende del número de bandas o la resolución espectral de la imagen[6].
El tamaño de cada píxel está determinado por la resolución espacial de la imagen, sin
embargo el píxel se puede modificar de tamaño, mediante técnicas de remuestreo. El
tamaño de la imagen depende básicamente del sensor o programa pues cada uno cubre
un área diferente[6].
En particular las imágenes multiespectrales son imágenes que se captan mediante un
sensor digital que mide la reflectancia en muchas bandas. Por ejemplo, un conjunto de
detectores puede medir energía roja reflejada dentro de la parte visible del espectro
mientras que otro conjunto mide la energía del infrarrojo cercano. Es posible incluso que
dos series de detectores midan la energía en dos partes diferentes de la misma longitud
de onda. Estos distintos valores de reflectancia se combinan para crear imágenes de
color. Los satélites de teledetección multiespectrales de hoy en día miden la reflectancia
simultáneamente en un número de bandas distintas que pueden ir de tres a catorce[6].
3.2.2. Plataformas satelitales y sensores remotos
La exploración de la superficie terrestre a partir de plataformas espaciales ha tenido un
vertiginoso desarrollo en lo últimos años. Esta técnica de percepción remota tiene como
principio la captura de información de la superficie en imágenes que permitan obtener
una visión global de determinada zona de interés. Estos instrumentos han ido
evolucionando desde sus inicios de simples cámaras hasta complejos equipos capaces de
discriminar el haz de luz incidente en diferentes niveles de información, o en otros casos,
emitir por su propia cuenta el haz de luz que traerá la información de interés[6].
23
En la actualidad se cuenta con una gran cantidad de plataformas satelitales comerciales
(Landsat, Ikonos, IRS, SPOT, QuickBird entre otros) que llevan consigo sensores
especialmente diseñados y calibrados (TM, ETM+, LISS, WIFS, HRVIR, XS). Los
satélites sobre los cuales están ubicados los sensores se encuentran más o menos a una
altura de 36.000 km sobre la superficie terrestre y la mayor parte son sensores pasivos, es
decir captan la energía emitida por las diferentes coberturas de la superficie terrestre.
Los sensores toman las imágenes y una estación receptora se encarga de procesar la
información, para entregar las imágenes a los diferentes usuarios[6].
Un concepto que se tratará con frecuencia es el de resolución; este término hace
referencia a la capacidad que tiene cada sensor para captar información en detalle. En
particular la resolución espacial es la capacidad que tiene el sensor para discriminar
objetos por el tamaño, también se puede decir que es el mínimo tamaño de un objeto que
puedo discriminar en la imagen; la resolución espectral es la capacidad que tiene el
sensor para trabajar en diferentes zonas o regiones del espectro electromagnético y la
resolución radiométrica es la capacidad que tiene el sensor para discriminar los valores
digitales asignados a los objetos[6].
3.2.3. Clasificación de imágenes satelitales
La clasificación de una imagen es una tarea que se realiza con el propósito de convertir
datos cuantitativos (generalmente los ND de los pixeles en cada banda espectral) en
datos cualitativos (temas o clases que son importantes en un dominio especifico del
conocimiento)[36].
Los algoritmos de clasificación de imágenes se pueden dividir en dos grupos,
supervisados y no supervisados. Las técnicas supervisadas tienen una fase de
entrenamiento en la cual se usan muestras representativas de las clases seleccionadas
para establecer un modelo del proceso de clasificación. Las técnicas no supervisadas no
requieren ningún entrenamiento y tampoco suponen la definición previa de una clase,
ellas se basan únicamente en la agrupación de los datos usualmente utilizando alguna
métrica euclidiana[37].
Lizarazo [37] sugiere el siguiente flujo de trabajo para la clasificación de imágenes, él
tomó como base otro proceso propuesto por Richards y Jia[36]:
24
1. Definición del Problema: las clases objetivo deben ser definidas, , , al
igual que el conjunto de atributos que se utilizarán para identificar las clases ,
.
2. Selección de las muestras de entrenamiento para cada una de las clases objetivo.
Para que la clasificación sea exacta, esas muestras deben ser ‘representativas’ de
cada clase. Es recomendable realizar algún tipo de análisis exploratorio para
establecer si las clases se están caracterizando de manera correcta, al igual que
entender si existen dificultades para la separación de las clases. Si se descubre
algún problema de caracterización, se deben modificar las clases objetivo y/o
cambiar los atributos que se utilizarán para diferenciarlas.
3. Construcción del clasificador usando criterios predeterminados: En Inteligencia
Artificial (IA) este paso se conoce de manera indistinta como fase de
entrenamiento o como aprendizaje inductivo[38].
4. Validación de los resultados del entrenamiento: Este paso busca evaluar el
desempeño del clasificador usando datos nuevos que no se han utilizado en el
entrenamiento. Si los resultados no son satisfactorios, puede ser necesario repetir
el proceso de entrenamiento utilizando criterios diferentes.
5. Aplicación del clasificador a todos los datos de la imagen para producir una
clasificación de toda el área de interés.
La clasificación de imágenes satelitales es una de las tareas más frecuentes entre las
personas y empresas que se dedican a procesar y analizar datos geográficos. A lo largo de
los años se han desarrollado y propuesto diversos métodos para clasificar imágenes, entre
ellos se encuentran el método de mínima distancia, también conocido como distancia
espectral, el método de distancia de Mahalanobis, el método de Máxima Probabilidad
también conocido como Bayesiano, la metodología Fuzzy[39], los algoritmos de RNA
MLP, entre otros.
3.2.4. Métodos convencionales y no convencionales para la
clasificación de imágenes
La Distancia de Mahalanobis es una medida de distancia introducida por Mahalanobis
en 1936. Su utilidad radica en que es una forma de determinar la similitud entre dos
variables aleatorias multidimensionales. Se diferencia de la distancia euclídea en que
tiene en cuenta la correlación entre las variables aleatorias[40].
Las SVM son una técnica de clasificación de aparición relativamente reciente y ha
tomado mucha fuerza en años recientes; en muchas aplicaciones, las SVM han mostrado
25
tener gran desempeño, más que las máquinas de aprendizaje tradicional como las redes
neuronales y han sido introducidas como herramientas poderosas para resolver problemas
de clasificación[7]. Son un método de clasificación que se basa en encontrar el mejor
hiperplano que separa dos conjuntos de datos pertenecientes a dos clases distintas. Para
ello, se maximiza la distancia al punto más cercano de cada clase con el fin de obtener el
menor error de generalización. Para hallar la frontera de separación, es necesario resolver
un problema de optimización usando técnicas de programación cuadrática. A partir del
hiperplano ajustado, se pueden clasificar nuevos datos en una de las dos categorías.
Además, las SVM permiten la separación de datos no linealmente separables,
transformando los datos de entrada a un espacio de mayor dimensión conocido como
espacio de características en el que sí pueden ser separados mediante un hiperplano. La
transformación se realiza mediante unas funciones denominadas núcleo o kernels[41].
Modificando distintos parámetros de las SVM se pueden obtener diferentes tipos de
fronteras de separación. Habitualmente, las SVM se emplean para clasificación
binaria[41].
Existen varios algoritmos para trabajar árboles de decisión por ejemplo el ID3, el C4.5,
el C5, el CART (Classification and Regresion Trees), entre otros. En los árboles de
decisión el paso a través del árbol es lo que explica la clasificación. Cada hoja contiene
información sobre el número de observaciones que caen en ella y la proporción para cada
clase; la clase más densa se selecciona como la clasificación para el nodo. Los árboles se
pueden utilizar para asignar puntajes a los datos, explorar datos, hacer clasificaciones y
predicciones y para comprender que variables son más importantes[2].
En general en la creación de un árbol de decisión se utiliza un conjunto de datos de
entrenamiento y se utiliza un conjunto de datos de validación para reducir la
complejidad del árbol y generalizarlo (proceso de poda o “pruning”) y así eliminar el
problema del sobreajuste u “overfitting”[2].
La poda de árboles de decisión es una tarea muy común y busca incrementar la
estabilidad del modelo al reducir su complejidad. Cada división del árbol reduce el error,
pero al aumentar el número de hojas, éstas contienen menos registros del conjunto de
datos de entrenamiento y se reduce la posibilidad de que la distribución de resultados en
una hoja sea similar a un conjunto de datos, es decir, el árbol se sobreajusta
(“overfitting”), entonces los datos de prueba son utilizados para encontrar el punto
donde la complejidad adicional empieza a ocasionar daños en el árbol en lugar de
mejorarlo[2].
26
El proceso recursivo de creación se inicia con todos los datos del conjunto de
entrenamiento en la raíz, para cada variable “input” se decide la mejor forma para
separar los valores de la variable “target”, se selecciona la variable “input” y criterio de
mejor separación mediante ésta para los valores de la variable “target”, se divide el nodo
en cuestión en dos o más hijos de acuerdo con aquella variable que “mejor divide” la
variable “target” y se repite el proceso con los otros nodos hasta que no sea posible más
divisiones. La medida para evaluar la calidad de una división en un árbol de decisión se
denomina pureza, esa medición de pureza depende de la variable “target” no de las
variables “input”; dentro de los métodos para medir la pureza en variables “target”
categóricas está el índice Gini, la Entropía, el radio de ganancia de información y la
prueba chi-cuadrado, para las variables “target” intervalo o radio está la prueba de
reducción en varianza y la prueba F[2].
La entropía es utilizada en la teoría de la información para medir la cantidad de
información almacenada en un número de bits; una población pura tiene una entropía de
0, si existen dos grupos igualmente representados la entropía es 1, el objetivo será
entonces minimizar la entropía. La entropía está dada por la siguiente expresión[2]:
( ) ∑ ( ) ( )
(26)
Donde ( ) es la proporción de muestras de entrenamiento perteneciente a la clase ,
{ }, dentro del nodo . Aquí, es el número de clases. Es decir, el nodo
contiene ejemplos, entonces ( ) es calculada mediante la siguiente expresión:
( )
∑ ( )
(27)
Donde
( ) {
De otra manera la entropía está dada por:
( ( )) ∑ ( ( )
) ( ( ) )
(28)
27
La ganancia está dada por:
( ) ( ) (
) ( ( )) (
) ( ( )) (
) ( ( )) (29)
El índice de Gini es la suma de los cuadrados de las proporciones de las poblaciones, se
asocia con la probabilidad de que dos cosas escogidas al azar de una población sean la
misma, así las cosas una población pura tiene un índice de Gini de 1, si hay dos grupos
igualmente representados en una población el índice de Gini es 0.5; el objetivo es
maximizar el índice de Gini[2].
( ) (
) ( ( )) (
) ( ( )) (
) ( ( )) (30)
El índice Gini en contraste con la medida de entropía tiene preferencia por grupos
similares en tamaño, la entropía tiene preferencia por grupos más pequeños y puros[2].
A lo largo del tiempo se comenzaron a proponer diferentes modelos de árboles que
buscaban optimizar los tiempos de procesamiento y disminuir los errores en los
resultados del algoritmo[2].
Quinlan [42] propone un método de decisión e inducción denominado ID3, él señaló que
la construcción de un árbol de decisión requiere de una estrategia de "divide y vencerás"
que utiliza un procedimiento de prueba recursiva cuyo objetivo era generar un pequeño
árbol. ID3 utiliza la ganancia de información como base para la inducción del árbol.
Como una extensión del algoritmo de inducción ID3, surge el C4.5 para dar cuenta de
las diversas cuestiones que no se abordan adecuadamente con ID3[43, 44]. Las
importantes mejoras incluyen la elección de una medida para la selección del atributo
adecuado, el manejo de datos con atributos faltantes, manejo atributos numéricos y
continuos, así como la poda del árbol de decisión. C4.5 utiliza ya sea ganancia de
información o una versión normalizada llamada la relación de ganancia para elegir
atributos como candidatos para el fraccionamiento[2].
Otro desarrollo derivado del C4.5 llamado SEE5.0 puede funcionar con varios tipos de
datos adicionales, a los que ya están disponibles en C4.5, incluye fechas, horas, marcas
de tiempo, ordenó atributos discretos y las etiquetas de caso. Además de hacer frente al
problema de los valores perdidos, SEE5.0 permite que los valores se marquen como no
aplicables y proporciona facilidades para la definición de nuevos atributos como
funciones de otros atributos. SEE5.0 también introduce el concepto de “boosting”, que es
28
una técnica para combinar múltiples procesos de aprendizaje ponderando adecuadamente
los píxeles de entrenamiento de las clases para mejorar la exactitud de predicción[2].
CHAID[45] se utiliza para estudiar la relación entre las variables dependientes y una
serie de variables de predicción. CHAID selecciona un conjunto de predictores y sus
interacciones para predecir de manera óptima la medida dependiente. El propósito
principal de la prueba de Chi-cuadrado es mirar la relación entre dos variables para
determinar el nivel de dependencia entre ellos. Con la prueba Chi-Cuadrado, CHAID
determina qué atributo es el más relevante para la clase a predecir. Esta característica lo
diferencia de otros algoritmos utilizados en árboles de decisión como las familias ID3 y
CART, que utilizan ya sea el aumento de la información o el índice de Gini para elegir el
atributo óptimo de división. CHAID también utiliza Chi-cuadrado para evaluar si un
árbol de decisión debe dejar de crecer para evitar el problema de sobreajuste. Por lo
tanto, para un árbol de decisión CHAID, no hay necesidad de considerar el tema de la
poda de los árboles.
La principal diferencia entre CART y C4.5/SEE5.0 es que CART sólo permite dos
ramas (es decir, dos hijos) para formar en cada proceso de partición, mientras C4.5 /
SEE5.0 puede generar diferentes cantidades de ramas como sea necesario durante el
proceso de inducción. En otras palabras, el árbol de decisión generado por el algoritmo
CART siempre será un árbol binario[46].
Los bosques aleatorios se basan en el desarrollo de muchos árboles de clasificación, donde
para clasificar un nuevo objeto desde un vector de entrada, se ubica dicho vector bajo
cada uno de los árboles del bosque, posteriormente cada árbol genera una clasificación, es
decir cada árbol “vota” por una clase. Al final el bosque escoge la clasificación teniendo
en cuenta el árbol más votado sobre todos los del bosque. Cada árbol se desarrolla
teniendo en cuenta tres aspectos básicos, lo primero es que si el número de casos en el
conjunto de entrenamiento es , prueba casos aleatoriamente, pero con sustitución, de
los datos originales; este será el conjunto de entrenamiento para el desarrollo del árbol.
Lo segundo es que si hay variables de entrada, un número es especificado
para cada nodo, m variables son seleccionadas aleatoriamente del conjunto y la mejor
partición de este m es usada para dividir el nodo; el valor de m se mantiene constante
durante el crecimiento del bosque. Lo tercero y último es que cada árbol crece de la
forma más extensa posible, sin ningún tipo de poda[3].
Los bosques consisten en una combinación de árboles de decisión donde cada clasificador
se genera utilizando un vector aleatorio de muestras independientemente del conjunto de
29
vectores de entrenamiento de entrada, y cada árbol emite un voto para la clase más
popular en cada ubicación dado un vector de entrada. La técnica para la generación de
un bosque aleatorio es generalmente una combinación de los métodos aleatorios de
subespacio y de bagging. Bagging es una técnica para mejorar la precisión de la
clasificación y evitar sobreajuste. Dado un conjunto de entrenamiento de tamaño ,
bagging genera un número de nuevos conjuntos de entrenamiento cada uno de tamaño
(donde ) extrayendo aleatoriamente muestras con reemplazo del conjunto de
entrenamiento inicial. También se supone que los datos contienen atributos (por
ejemplo, bandas espectrales). Para cada nodo del árbol, ( ) atributos son
elegidos aleatoriamente para proporcionar la base para el cálculo de la mejor partición en
ese nodo. Una vez formado el bosque aleatorio, cada muestra se clasifica en una clase
tomando los votos más populares de todos los predictores de los árboles en el bosque. La
técnica de los bosques aleatorios tiene varias ventajas: (a) su precisión es tan buena
como la del algoritmo Adaboost3 y a veces mejor, (b) es relativamente robusto a los
valores atípicos y al ruido, (c) es más rápido que otros métodos como bagging, (d)
muestra las estimaciones internas útiles del error, la fuerza, la correlación y la
importancia de la variable y (e) es muy sencillo y de fácil parametrización[2].
Las RNA se pueden definir como modelos matemáticos inspirados en sistemas biológicos,
adaptados y simulados en computadoras convencionales[9]. Una RNA es una estructura
compuesta de un número de unidades interconectadas (neuronas artificiales). Cada
unidad posee una característica de entrada/salida e implementa una computación local o
función. La salida de cualquier unidad está determinada por su característica de
entrada/salida, su interconexión con otras unidades y de sus entradas externas. Sin
embargo la red desarrolla usualmente una funcionalidad general a través de una o más
formas de entrenamiento[10].
Las actividades de investigación desarrolladas en torno al estudio de las RNA, están
motivadas en modelar la forma de procesamiento de la información en sistemas nerviosos
biológicos. Especialmente, por la forma de funcionamiento del cerebro humano, que es
completamente distinta al funcionamiento de un computador digital convencional. El
cerebro humano corresponde al de un sistema altamente complejo, no-lineal y paralelo.
En términos sencillos lo anterior equivale a decir que puede realizar muchas operaciones
simultáneamente a diferencia de los computadores comunes que son de tipo secuencial, o
3 Algoritmo que pertenece a los métodos Boosting de las redes neuronales artificiales y que propone entrenar
iterativamente una serie de clasificadores base, de tal modo que cada nuevo clasificador preste mayor atención a los
datos clasificados erróneamente por los clasificadores anteriores, y combinarlos de tal modo que se obtenga un
clasificador con elevadas prestaciones.
30
sea, realizan sólo una operación a la vez. En este sentido, una RNA es un procesador de
información, de distribución altamente paralela, constituido por muchas unidades
sencillas de procesamiento llamadas neuronas[47].
Las RNA se caracterizan principalmente por: (1) tener una inclinación natural a adquirir
el conocimiento a través de la experiencia, el cual es almacenado, al igual que en el
cerebro, en el peso relativo de las conexiones interneuronales; (2) tienen una altísima
plasticidad y gran adaptabilidad, son capaces de cambiar dinámicamente junto con el
medio; (3) poseen un alto nivel de tolerancia a fallas, es decir, pueden sufrir un daño
considerable y continuar teniendo un buen comportamiento, al igual como ocurre en los
sistemas biológicos; y (4) tener un comportamiento altamente no-lineal, lo que les
permite procesar información procedente de otros fenómenos no-lineales[47].
Entre las motivaciones principales para el estudio del funcionamiento de las redes
neuronales se encuentran los fenómenos neurológicos. El cerebro humano es un
procesador de información muchísimo más eficiente que un computador. La clave de esto
se encuentra en la inmensa plasticidad del cerebro, existen tareas cotidianas para el
cerebro que sería impensable realizar mediante computación tradicional[47].
En la actualidad, tareas mucho más simples consumen días de trabajo de los
computadores más veloces. La plasticidad se percibe también en la capacidad de
responder de forma correcta frente a un estímulo nunca antes recibido. Debido a estas
características y muchas otras, las RNA se han convertido en una gran ayuda en el
procesamiento de datos experimentales de comportamiento complejo. Además, su
comportamiento iterativo no lineal las une de modo natural al caos y teorías de la
complejidad[47].
Las RNA, se han utilizado cada vez más en teledetección durante los últimos diez años,
principalmente para la clasificación de imágenes. Una ventaja de las redes neuronales se
encuentra en la alta tasa de cómputo alcanzado por su paralelismo masivo, esto como
resultado de una densa disposición de interconexiones (pesos) y procesadores simples
(neuronas), que permite el procesamiento en tiempo real de conjuntos de datos muy
grandes[2].
Las redes neuronales artificiales se describen generalmente como no paramétricas, es
decir, el uso de una red neuronal no requiere ninguna suposición sobre la distribución
estadística de los datos. El rendimiento de una red neuronal depende significativamente
de lo bien que ha sido entrenada y no del cumplimiento de los supuestos asociados a la
31
distribución estadística de los datos, como sí ocurre en el caso del clasificador máxima
verosimilitud. Durante la fase de entrenamiento, la red neuronal "aprende" sobre
regularidades presentes en los datos de entrenamiento y a partir de estas regularidades,
construye reglas que se pueden extender a los datos desconocidos. Esta es una habilidad
especial de todas las redes neuronales. Sin embargo, el usuario debe determinar la
arquitectura de la red y también definir parámetros tales como la tasa de aprendizaje, lo
que afecta el tiempo de entrenamiento, el rendimiento y la tasa de convergencia de una
red neuronal. No hay reglas claras para ayudar en el diseño de la red y sólo existen
reglas heurística para guiar a los usuarios en la elección de los parámetros de red[2].
Existen varios tipos de arquitectura fundamental para una red neuronal, dentro de las
cuales están la perceptrón multicapa (MLP) con retropropagación de errores, los mapas
de características auto-organizado de Kohonen (SOM), redes contra- propagación, las
redes de Hopfield y la red de resonancia adaptativa (ART)[2].
Las redes MLP utilizando el algoritmo de aprendizaje de retropropagación [48] es uno de
los modelos más ampliamente utilizados. La (Figura 4a) muestra una red neuronal MLP
de tres capas, la capa que se encuentra más a la izquierda de la neurona es la capa de
entrada y contiene el conjunto de neuronas que reciben entradas externas, para el caso
de estudio de este trabajo esas entradas se reciben en forma de valores de píxel en el
diferentes bandas de una imagen multiespectral u otros valores de características. La
capa de entrada no realiza ningún cálculo, a diferencia de los elementos de las otras
capas. La capa central es la capa oculta (puede haber más de una capa oculta en redes
complejas). La capa que se encuentra más a la derecha de las neuronas es la capa de
salida, que produce los resultados de la clasificación. No hay interconexiones entre las
neuronas de la misma capa, pero todas las neuronas de una capa dada están
completamente conectadas a las neuronas de las capas contiguas. Estas interconexiones
asocian pesos numéricos , los cuales se ajustan durante la fase de aprendizaje. El
valor que tienen cada neurona se llama actividad y se denotará como (Figura 4b)[2].
32
Figura 4. Red neuronal perceptrón multicapa de tres capas[2]
El algoritmo más utilizado para realizar la actualización de las actividades neuronales y
los pesos de interconexión en una arquitectura MLP es el algoritmo de propagación hacia
atrás. La propagación hacia atrás empleada para llevar a cabo la modificación del estado
neuronal, implica dos pasos denominados propagación hacia adelante y propagación
hacia atrás. Durante el entrenamiento, cada muestra se introducen en la capa de entrada
y las actividades de las neuronas son secuencialmente actualizadas desde la capa de
entrada hasta la capa de salida en términos de alguna función de mapeo. Una vez que el
avance hacia adelante está terminado, las actividades de la salida de las neuronas son
comparadas con las actividades esperadas. Excepto en circunstancias muy inusuales, las
salidas reales serán diferentes a los resultados esperados y las diferencias son el error de
la red. Este error se distribuye a través la red por medio de una propagación hacia atrás
desde la capa de salida, con esto se actualizan los pesos. Los pasos hacia adelante y hacia
atrás continúan hasta que la red aprende las características de todas las clases. Este
procedimiento se llama formación la red[2].
Durante el proceso de propagación hacia adelante, las actividades de las neuronas se
actualizan capa por capa secuencialmente, desde la capa de entrada hasta la capa de
salida, con el fin de generar una salida en la forma de las activaciones de las neuronas
que se encuentran en la capa de salida[2].
Sea la entrada total recibida por la neurona j, que se representa por:
∑ (31)
donde es la actividad de la neurona , y es el peso de la conexión de la neurona
a la j-ésima neurona. Una vez que el valor de es calculado, este es convertido a un
33
valor de salida (para la transmisión a la siguiente capa si la neurona se encuentra en una
capa intermedia) utilizando una función de mapeo. La función sigmoidea es la función de
mapeo que se elige más comúnmente (Tabla 2). Es una función no lineal monótonamente
creciente y está definida por[2]:
( )
( )
(32)
es un parámetro denominado temperatura (normalmente , hace que la curva
sigmoidal sea más abrupta ( ) o gradual ( ). Después de calcular la actividad
de cada neurona dentro de la misma capa, un proceso similar se lleva a cabo en la
siguiente capa adyacente. Hay que tener en cuenta que la capa de entrada es un caso
especial debido a que las neuronas en ésta, toman los valores proporcionados por la
muestra de entrenamiento. Para los nodos de la capa de entrada, la actividad de la
neurona j se encuentra justo como la j-ésima componente del vector de patrón de
entrada[2].
La función que se ha introducido como función de mapeo suele ser llamada por otros
autores función de activación o función de transferencia. Esta función de activación es la
encargada de transformar el valor de la entrada neta en el valor de salida del nodo[49].
Retomando la analogía con el caso biológico, una neurona biológica puede estar activa
(excitada) o inactiva (no excitada); es decir, que tiene un “estado de activación”. Las
neuronas artificiales también tienen diferentes estados de activación; algunas de ellas
solamente dos, al igual que las biológicas, pero otras pueden tomar cualquier valor
dentro de un conjunto determinado. Para explicar porque se utilizan estas funciones de
activación se suele emplear la analogía a la aceleración de un automóvil. Cuando un auto
inicia su movimiento necesita una potencia elevada para comenzar a acelerar. Pero al ir
tomando velocidad, este demanda un menor incremento de dicha potencia para mantener
la aceleración. Al llegar a altas velocidades, nuevamente un amplio incremento en la
potencia es necesario para obtener una pequeña ganancia de velocidad. En resumen, en
ambos extremos del rango de aceleración de un automóvil se demanda una mayor
potencia para la aceleración que en la mitad de dicho rango[50].
Las funciones de activación se clasifican en lineales y no lineales, dentro de las más
empleadas se encuentra la función identidad que es lineal y dentro de las no lineales
están la gaussiana, la sinusoidal y las sigmoideas como la función tangente hiperbólica o
34
la logística. Estas dos últimas se consideran sigmoidales porque sus curvas son suaves y
asintóticas[51], ambas funciones de activación son continuas y diferenciables.
Una propiedad que deben tener las funciones de activación es que deben ser
diferenciables. El requisito de trabajar con funciones diferenciables puede venir impuesto
por la regla de aprendizaje, como sucede con la regla de retropropagación del error
(backpropagation). La función de activación se suele considerar determinista y en la
mayor parte de los modelos es monótona creciente y continua[2].
La forma de las funciones de activación más empleadas en las redes neuronales
artificiales se muestra en la Tabla 2:
Tabla 2. Algunas funciones de activación más empleadas [52]
Función Rango Gráfica
Identidad [ ]
Escalón ( ) ( )
{ } { }
Lineal a tramos {
[ ]
Sigmoidea
( )
[ ] [ ]
Gaussiana [ ]
Sinusoidal ( ) [ ]
En general, la función de activación que se selecciona para diversas aplicaciones es una
de las sigmoideas, aunque es posible utilizar otra función dependiendo de la naturaleza
de los datos y siempre y cuando se cumplan las características mencionadas con
anterioridad. Si en una red multicapa existen varios niveles o capas, la función de
35
activación debe ser no lineal, ya que de no ser así una red con varios niveles equivaldría
a una red con un nivel[2].
Figura 5. (a) La forma de la curva sigmoidal varía con el parámetro T. (b) La ubicación de la función sigmoide ha
cambiado después de que se suma o se resta sesgo [2]
A veces, una neurona adicional, llamada el sesgo, se añade a la red neuronal. Esta se
enlaza a todas las capas de la red, excepto la capa de entrada. Esta unidad de sesgo
tiene una actividad constante de 1, pero afecta a cada neurona j a través de diferentes
valores de peso. Si se introduce la unidad de sesgo, la ecuación que define a se
modifica de la siguiente manera:
∑ (33)
donde es el sesgo asociado a la neurona j. El efecto del sesgo , en la expresión es
contribuir en el desplazamiento de la función sigmoide de mapeo a la izquierda o hacia la
derecha, como se muestra en la (Figura 5b), dependiendo de si el valor es negativo o
positivo. Se cree que insertar la una unidad de sesgo a la red mejora la propiedad de
convergencia de una red neuronal MLP. En la propagación hacia atrás, los pesos
intermedios se modifican desde la capa de salida hasta la capa de entrada. El objetivo de
la actualización de peso es reducir el error de identificación de la red. En general, se
aplica el criterio de minimizar el error medio cuadrático[2].
3.3. La regresión-kriging en la clasificación de imágenes
satelitales
A continuación se presenta una revisión de la regresión-kriging y algunas consideraciones
relacionadas con kriging universal y kriging con deriva externa.
36
3.3.1. El mejor estimador lineal insesgado (MELI) para datos
espaciales
Retomando conceptos presentados en el Capítulo 1, en el enfoque geoestadístico clásico,
las predicciones se hacen comúnmente mediante el cálculo de algunos promedios
ponderados de las observaciones:
( ) ∑ ( )
(34)
donde ( ) es el valor predicho de la variable de objetivo en una ubicación desconocida
, los datos de la muestra están dados por ( ) ( ) ( ). Los pesos se
obtienen de manera que la varianza de error de predicción se reduce al mínimo,
considerando que los pesos dependen de la estructura de autocorrelación espacial de la
variable. Esto fue lo que se definió previamente como kriging ordinario[53].
Matheron[54] propuso que el valor de una variable objetivo en alguna ubicación puede
ser modelado como una suma de los componentes determinístico y estocástico:
( ) ( ) ( ) (35)
A esto lo denominó modelo universal de la variación espacial, en el cual tanto la
componente determinista como la estocástica de la variación espacial pueden ser
modeladas por separado.
Con base en lo anterior surge una alternativa al método kriging, es el enfoque de
regresión, que hace predicciones modelando la relación entre las variables objetivo y
auxiliares en las ubicaciones muestreadas, y aplicando el modelo en ubicaciones
desconocidas utilizando el valor conocido de las variables auxiliares en esos lugares[55].
Comúnmente los predictores auxiliares son parámetros de la superficie de la tierra,
imágenes de teledetección, y geológica, el suelo y mapas de uso del suelo[56]. Un enfoque
común de regresión es la regresión lineal múltiple, donde la predicción es de nuevo una
media ponderada, esta vez de los predictores:
( ) ∑ ( ) ( )
(36)
37
donde ( ) son los valores de las variables auxiliares en la ubicación objetivo, son
los coeficientes de regresión estimados y es el número de predictores o variables
auxiliares[57, 58].
Figura 6. Ejemplo esquemático del concepto de regresión-kriging[59]
La regresión-kriging combina estos dos enfoques: la regresión se utiliza para ajustar la
variación objetivo, esto es la variación explicada, y kriging simple con valor esperado 0
se utiliza para ajustar los residuos, es decir, la variación no explicada[60]. En otras
palabras la regresión resuelve los coeficientes del modelo de deriva o tendencia, mientras
que los residuos son interpolados con un método kriging, para ser añadidos a la deriva
del modelo; aquí, la dificultad es la obtención de coeficientes de regresión imparciales en
presencia de auto-correlación espacial de los residuos:
( ) ( ) ( ) ∑ ( ) ∑ ( )
(37)
donde ( ) es la deriva ajustada, ( ) es la interpolación residual, son los
coeficientes ajustados del modelo de deriva ( es el intercepto estimado), son pesos
kriging determinados por la estructura de dependencia espacial de los residuales y ( ) es
el residual en la ubicación [16]. Los coeficientes de regresión pueden estimarse a
partir de la muestra por algún método apropiado, por ejemplo, mínimos cuadrados
ordinarios (MCO) o, de manera óptima, utilizando mínimos cuadrados
generalizados (MCG), para tomar la correlación espacial entre las observaciones
individuales en cuenta:
( ) (38)
[ ( ) ( )
( ) ( )
]
38
donde es el vector de coeficientes de regresión estimados, es la matriz de
covarianza de los residuales, es una matriz de predictores en las ubicaciones
muestreadas, y es el vector de valores de medición de la variable de objetivo[16]. Una
vez la tendencia ha sido estimada, los residuos se interpolan con kriging y se añaden a la
tendencia estimada. En notación matricial, esto se escribe como:
( )
( ) (39)
donde ( ) es el valor predicho en la ubicación , es el vector de predictores de
orden y es el vector de pesos kriging utilizados para interpolar los
residuos[61]. La (Ec. 39), en términos estadísticos, es el MELI[62].
La estimación de los residuos es un proceso iterativo: en primer lugar el modelo de
deriva es estimado usando mínimos cuadrados ordinarios (MCO); a continuación, la
función de covarianza de los residuales se utiliza para obtener los coeficientes de MCG;
éstos se pueden utilizar para volver a calcular residuales y así sucesivamente[63].
Aunque muchos expertos recomiendan como este proceso iterativo como el más
adecuado, Kitanidis[64] mostró que el uso de la función de covarianza derivado de los
residuos MCO (es decir, una única iteración) es a menudo satisfactorio, ya que no es lo
suficientemente diferente de la función derivada después de varias iteraciones para
afectar la interpolación kriging.
La relación de adición de la ecuación (Ec. 37) se extiende a las varianzas también. Por lo
tanto, el error de predicción es la suma de error de predicción del error de deriva y el
kriging de los residuos. El error está dado entonces por:
( ) { ( )} { ( )} (40)
donde { ( )} es el error de predicción de la deriva y { ( )} es la varianza obtenida
al aplicar el método kriging sobre los residuos[65]. La (Ec. 40) también puede ser
llamada como la varianza compuesta. Si los coeficientes del modelo de deriva se estiman
utilizando MCO, la covarianza entre los residuos y la deriva estimada se supone que es
cero. Por lo tanto, la varianza compuesta se puede calcular usando:
( ) ( )
⏟ { ( )}
( ) ⏟
{ ( )}
(41)
39
donde es el vector de predictores en lugar no observado y es el vector de
covarianza en la nueva ubicación:
{ ( ) ( )} (42)
Esta es una solución sub-óptima ya que la estimación MCO debe ser sustituida por la
estimación MCG de la deriva para obtener una estimación insesgada de coeficientes. En
el caso de la estimación vía MCG, utilizamos los residuos para estimar los coeficientes de
deriva y por lo tanto la covarianza entre la deriva estimada y los es diferente de cero.
Una fórmula utilizada comúnmente para calcular la varianza del error de predicción,
tanto para la deriva como para los residuos, y dar cuenta de covarianza entre la
estimación de deriva y residuales es la varianza del kriging universal[16]
( ) ( )
( ) ( ) ( ) (43)
La (Ec. 43) se parece mucho a la (Ec. 41), excepto que dará valores ligeramente, más
bajos[63].
La varianza del kriging universal es, de hecho, presentada como la varianza de predicción
del error [66]
( ) ⟨{ ( ) ( )}
⟩ { ( )} { ( ) ( )} { ( )} (44)
( ) ( )
(45)
Siendo es:
[ ( ) (
)] (46)
El supuesto asumido por la regresión-kriging es que no hay dependencia espacial entre la
variable auxiliar y los residuales de la regresión lineal de la variable a predecir sobre la
variable auxiliar en el mismo punto[67]. La varianza del kriging universal es igual a la
varianza del error de predicción de un modelo de regresión si no hay correlación espacial
entre los residuos (efecto pepita puro). Por lo tanto, puede ser reducir a la matriz
identidad:
[
] ( ) (47)
40
y es el vector cero, por lo tanto la varianza de kriging universal se reduce a:
( ) ( )
(
)
(48)
( ) ( ) ( )
( ) (49)
y siendo ( ) ( ) , la varianza del kriging universal se reduce a:
( ) [
( ) ] (50)
que es igual al error de predicción alrededor de la línea de regresión[68].
La expresión { ( )} en la (Ec. 41), en términos de regresión lineal, es equivalente a la
curvatura ponderada de los intervalos de confianza de todo el hiperplano de regresión.
En el caso multivariado, el error de regresión en todo el hiperplano de regresión se vería
así:
{ ( )}
∑ ( )
∑ ∑ ( )
(51)
donde es la media ponderada de los valores predichos. Por lo tanto, a partir de la
(Ec. 51) se infiere que la incertidumbre de la predicción aumentará a medida que el
nuevo punto se localiza más lejos de los puntos de observación y geográficamente más
lejos del centro del espacio característico[63].
3.3.2. Kriging universal y kriging con deriva externa
La literatura geoestadística utiliza muchos términos diferentes para lo que son
esencialmente las mismas técnicas o por lo menos muy similares. Todos estos siguen el
modelo de kriging universal que fue introducido por Matheron[54] y que es considerado
por muchos estadísticos como el “único” modelo de datos espaciales MELI[61].
Originalmente, kriging universal fue pensado como un caso generalizado de kriging donde
la tendencia se modela como una función de las coordenadas, dentro del sistema de
kriging. Por lo tanto, muchos autores como Deutsch & Journel[69], Wackernagel[70] y
Papritz & Stein[66] se reservan el término kriging universal para este caso. Si la deriva
se define externamente como una función lineal de algunas variables auxiliares, en lugar
de las coordenadas, se emplea el término kriging con deriva externa (KED)[65, 70]. En el
41
caso del kriging universal o KED, las predicciones se hacen como con kriging, con la
diferencia de que la matriz de covarianza de los residuales es ampliada con los
predictores auxiliares ( ) [71]. Sin embargo, la deriva y los residuos también se
pueden estimar por separado y luego se suman. Este procedimiento fue sugerido por
Ahmed & de Marsily[72] y Odeh et al[73] más tarde lo llamó regresión-kriging, mientras
Goovaerts[74] utiliza el término kriging con modelo de tendencia para referirse a una
familia de interpoladores y se refiere a regresión-kriging como kriging simple con medias
de variación local. El KED y la regresión-kriging difieren en los pasos de cálculo
utilizados, sin embargo, las predicciones resultantes y las varianzas de predicción son los
mismos, dado el mismo conjunto de puntos, las variables auxiliares, forma funcional de
la regresión, y método de ajuste de regresión[60].
Aunque el KED parece, a primera vista, ser computacionalmente más sencillo que la
regresión-kriging, los parámetros de variograma para KED también deben ser estimados
a partir de residuos de la regresión, por lo que requiere una etapa de modelado de
regresión por separado. Esta regresión debe ser GLS debido a la probable correlación
espacial entre los residuos. Muchos analistas emplean en su lugar los residuos MCO, que
pueden no diferir mucho de los residuos de GLS[75]. Sin embargo, estos no son óptimos
si existe alguna correlación espacial, y de hecho puede ser muy diferente en el caso si los
puntos del conglomerado de muestra estan altamente correlacionados. Otra limitación
del KED es la inestabilidad de la matriz extendida en el caso de que la covariable no
varié suavemente en el espacio[74]. La regresión-kriging tiene la ventaja de que separa
explícitamente la estimación de la tendencia de la interpolación residual, lo que permite
el uso de formas de regresión arbitrariamente complejas, en lugar de las técnicas lineales
simples que se pueden utilizar con KED. Además, permite la interpretación separada de
los dos componentes interpolados. La regresión-kriging es entonces es un sinónimo más
descriptivo del mismo método de interpolación genérico[60]. Por estas razones algunos
autores prefieren el uso del término regresión-kriging sobre kriging universal.
Algunos estudiosos de los temas geoestadísticos creen que sólo hay un modelo para datos
espaciales que proporciona el MELI, de la que todas las otras técnicas (lineal) se pueden
derivar[61, 76, 77], por ejemplo la regresión-kriging sería este modelo y otras técnicas
tales como kriging ordinario, un promedio de los valores por polígonos o interpolación de
distancia inversa ponderada (IDW) por sus siglas en inglés, pueden ser vistos como sus
casos especiales. Si los residuos no muestran auto-correlación espacial (efecto pepita
puro), la regresión-kriging converge a la regresión lineal múltiple clásica, debido a que la
matriz de covarianza se convierte en una matriz de identidad[60].
42
Del mismo modo, si la variable de objetivo no muestra correlación con los predictores
auxiliares, el modelo de regresión-kriging se reduce a modelo kriging ordinario, porque la
parte determinista es igual al valor medio (global). [60], Por lo tanto, el kriging clásico y
la regresión clásica pueden ser considerados como casos especiales de regresión-kriging[60,
63].
Entendiendo que la mayoría de los modelos de predicción espacial lineales están
conectados de alguna manera, es posible empezar por probar la técnica más genérica y
hasta encontrar la técnica más adecuada para el caso de estudio. Pebesma[78], por
ejemplo, implementó una estructura de este tipo anidado, un usuario puede cambiar
entre una y otra técnica siguiendo un árbol de decisión que se muestra en el Diagrama 2.
Siguiendo este árbol lo primero sería comprobar si el modelo determinístico está definido,
en caso de que no se puede tratar de correlacionar las variables incluidas en la muestra
con los factores ambientales. Si los factores ambientales tienen una correlación
significativa, es posible ajustar un modelo de regresión lineal múltiple y luego analizar la
autocorrelación espacial de los residuos. Si los residuos no muestran autocorrelación
espacial (efecto pepita puro), se procede a la estimación por MCO de los coeficientes de
regresión. De lo contrario, si los residuos muestran auto-correlación espacial, se realizaría
una regresión-kriging[59].
Figura 7. Un árbol de decisión general para seleccionar el modelo de predicción espacial adecuada en base a los
resultados de la estimación del modelo[59].
43
Si los datos no muestran correlación con factores ambientales, entonces todavía se puede
analizar el semivariograma de la variable de objetivo. Esta vez, también podría
considerar el modelado de la anisotropía. Si logra ajustarse un semivariograma diferente
del efecto pepita puro, entonces sería apropiado hacer kriging ordinario. De lo contrario,
si sólo se puede ajustar un semivariograma lineal, entonces simplemente se utilizaría
algún interpolador determinístico, como el método IDW. Si el semivariograma de la
variable objetivo no muestra auto-correlación espacial, y ninguna correlación con factores
ambientales, lo correcto sería emplear un modelo de media global para toda la zona[59].
3.3.3. Predicción Espacial para variables categóricas
Aunque la geoestadística se emplea principalmente para trabajar con las variables
continuas, también se puede utilizar para predecir diversos tipos de variables categóricas
o de tipo de clase. El análisis geoestadístico de variables categóricas es más conocido
como geoestadística indicadora[79]. En la práctica, los cálculos que requiere el kriging
indicador no suelen ser sencillos, lo que probablemente explica por qué no hay muchas
aplicaciones de mapeo geoestadístico relacionadas con variables categóricas[80]. Por
ejemplo, normalmente será difícil ajustar semivariogramas para las clases de menos
frecuencia y que se presentan en lugares aislados (Figura 8d).
Figura 8. Dificultades para predecir los datos de clase punto (b) y (d), en comparación con las variables cuantitativas
(a) y (c), es que la clase-interpoladores son típicamente más complejo y computacionalmente más tiempo[59].
Papritz[81] reconoce varias dificultades conceptuales al trabajar con los datos de tipo
indicador: (1) el modelado inconsistente del semivariograma indicador, y (2) el uso de
semivariogramas globales que conduce a predicciones sesgadas debido a que los residuos
son, por definición, no estacionarios. Cualquier intento de utilizar kriging indicador para
44
datos con una tendencia aparente, ya sea explícita o implícitamente mediante el uso de
un kriging indicador ordinario dentro de un vecindario, requiere modelar la no
estacionariedad en los semivariogramas indicadores para garantizar que el error medio
cuadrático de kriging sea óptimo. La regresión-kriging indicadora sin ninguna
transformación también ha sido criticada porque el modelo (variable binomial) sugiere
que los residuos tienen varianza media-dependiente ( ( )), y por lo tanto el uso de
un solo semivariograma para el conjunto completo de residuos no va en línea con la
teoría[81].
Denótense las observaciones de campo de una variable de tipo clase como
( ) ( ) ( ), donde son categorías discretas (o estados) y es el
número total de clases. Una técnica que estima la clase desconocida en una ubicación
determinada ( ), dado el conjunto de datos de punto de entrada
( ( ) ( ) ( )), puede ser llamado interpolador tipo de clase. Si espacialmente
los predictores (donde es el número de predictores) están disponibles, estos
pueden ser utilizados para mapear cada categoría sobre el área de interés. Hasta el
momento, hay un número limitado de técnicas que puedan lograr esto:
Cokriging Multi-indicador: El básico kriging multi-indicador también se puede
extender a un caso en el que se utilizan varios covariables para mejorar las
predicciones. Esta técnica se conoce con el nombre de cokriging indicador[82].
Aunque la teoría matemática está bien explicada por Bierkens & Burrough[79],
Goovaerts[74] y Pardo-Igúzquiza & Dowd[83], la aplicación es engorrosa pues es
necesario ajustar un gran número de funciones de covarianza cruzadas.
Regresión multinomial log-lineal: Esta es una generalización de la regresión
logística para situaciones en las que hay varias clases de una variable objetivo[84].
Cada clase tiene un conjunto separado de coeficientes de regresión ( ). Debido a
que los valores observados son iguales a 0 o 1, los coeficientes de regresión deben
resolverse a través de un algoritmo iterativo de máxima verosimilitud[85], esto
hace que todo el método sea un poco más exigente computacionalmente que una
simple regresión múltiple.
Regresión-kriging de indicadores: Un enfoque para interpolar las variables
categóricas es primero asignar membresías a puntos observados y luego interpolar
cada membresía por separado. Este enfoque fue elaborado por primera vez por De
Gruijter et al[86] y luego aplicado por Bragato[87] y Triantafilis et al[88]. Una
45
alternativa hacer un mapeo sencillo pero descriptivas, determinar distancias y
luego clasificarlo por píxel en un SIG[89].
En el caso de la regresión logística, la probabilidad de observar una clase ( ) en nuevas
ubicaciones se calcula como:
( ) [ (
)] (52)
donde ( ) son las probabilidades estimadas para la clase ( ) en una nueva ubicación
y es el número de clases. La regresión logística multinomial se puede extender
también a la regresión-kriging. Esto significa que el modelo de regresión se complementa
con el modelado de semivariogramas para residuos de la regresión, que luego de ser
interpolada y se añade de nuevo a la estimación de regresión. Así que las predicciones se
obtienen mediante[59]:
( ) [ (
)]
( ) (53)
donde son los residuos interpolados. La extensión de la regresión multinomial a la
regresión-kriging no es tan simple como parece. Esto se debe a los valores estimados en
nuevas ubicaciones en la (Ec. 53) están limitados dentro de un rango indicador, lo que
significa que la interpolación de los residuos puede dar lugar a valores fuera del rango
físico (<0 o >1). Una solución a este problema es predecir la parte tendencia en el
espacio transformado, luego interpolar los residuos, sumar la tendencia y parte residual y
volver a transformar los valores[59].
Hengl et al[90] muestran que la membresía ( ), en lugar de los indicadores, son más
adecuados tanto para la regresión y el modelamiento geoestadístico, hecho que ha sido
confirmado por otros autores como McBratney et al[91], De Gruijter et al[86];.
Triantafilis et al[88]. Las membresías pueden ser linealizadas directamente a través de la
transformación logit:
(
) (54)
donde son los valores de membresía utilizadas como entrada a la interpolación. Luego
todos los valores ajustados estarán dentro de un rango físico (0-1). Las predicciones de la
membresía para la clase en nuevas ubicaciones son obtenidas utilizando el modelo
estándar de regresión-kriging:
46
( )
(
) (55)
Después los valores interpolados pueden volver a transformarse al rango de la membresía
utilizando[92]:
( )
( )
( )
(56)
En el caso de la regresión-kriging de membresías, tanto la dependencia espacial como la
correlación con los predictores se modelan de una manera estadísticamente sofisticada.
Además, la regresión-kriging de membresías permite el ajuste de cada clase por separado,
lo que facilita la comprensión de la distribución de las variables y la identificación de las
clases problemáticas, es decir, clases que no están correlacionados con los predictores o
no muestran ninguna autocorrelación espacial, etc[59].
La predicción espacial de la membresía puede ser excesiva en tiempo de cálculo. Otro
problema es que, si las clases interpoladas (probabilidades, membresías) son ajustadas
solamente usando los datos de la muestra, las predicciones de las
probabilidades/membresías no serán sumadas a la unidad en nuevas ubicaciones. En este
caso, es necesario estandarizar los valores de cada nodo de la red por medio dividiendo
los valores originales por la suma de las probabilidades/membresías para garantizar que
estos se suman la unidad, que es una solución ad-hoc. Un algoritmo, tal como la
composición de regresión-kriging tendría que ser desarrollado[59].
47
4. Antecedentes
El tema de la clasificación de imágenes obtenidas mediante sensores remotos, ha sido
ampliamente abordado por diversos autores. Desde el enfoque de los métodos empleados
usualmente en la clasificación, habla Lizarazo [37] sobre la existencia de trabajos que han
evaluado el desempeño de los clasificadores estadísticos convencionales frente al
desempeño de métodos no convencionales como el que propone este trabajo, algunos
autores son Paola & Schowengerdt [93] y Fitzgerald & Lees[94]. En otros trabajos se han
propuesto métodos para mejorar el desempeño y confiabilidad de los métodos no
convencionales, algunos autores son German[95], Kanellopoulos & Wilkinson [96] y
Gahegan & West[97]. Aunque estos métodos para la clasificación de la cobertura y el uso
del suelo han sido usados más ampliamente en imágenes que cubren zonas rurales[2],
también se han realizado aplicaciones en zonas urbanas[98-100], en cuanto a esto último
es importante destacar que la clasificación de la cobertura del suelo urbano usando
bandas espectrales es un asunto complejo debido a que las diferentes clases se
superponen en el espacio espectral[37].
Toro & Lizarazo [101] realizaron una evaluación de las RNA MLP y Fuzzy-Artmap en la
clasificación de imágenes satelitales, en dicho trabajo reportaron una comparación
cuantitativa y cualitativa del desempeño de las RNA MLP y Fuzzy-Artmap para
clasificación de coberturas del suelo a partir de imágenes satelitales multiespectrales y
concluyeron que los dos modelos de redes neuronales aplicados en este estudio son
clasificadores que ofrecen resultados de calidad adecuada para procesos de clasificación
de coberturas del suelo sobre imágenes de satélite multiespectrales, finalmente indican
que en el análisis cuantitativo la RNA MLP alcanza un mejor resultado. Zhang & Foody
[102] proponen dos enfoques para la clasificación de una imagen satelital mediante
algoritmos difusos, uno con enfoque estadístico basado en un algoritmo de fuzzy
clustering c-means modificado, realizado en un modo supervisado y un enfoque basado
en redes neuronales artificiales; en este mismo estudio también se aborda algunos temas
asociados al método kriging indicador. Lizarazo [37] presenta una comparación del
funcionamiento y de las capacidades de dos algoritmos de IA, retro-propagación (RNA)
y árboles de decisión, que representan métodos alternativos para la clasificación digital
de imágenes de sensores remotos frente a los algoritmos estadísticos convencionales. En
particular, se muestran las ventajas y limitaciones de las nuevas técnicas, teniendo en
cuenta conceptos teóricos al igual que la evaluación de los resultados obtenidos en su
48
aplicación en la clasificación de cobertura y uso del suelo en una zona piloto de la ciudad
de Bogotá, Colombia. Rodríguez [103] presenta el análisis hecho a un conjunto de datos
que representan diferentes imágenes, clasificadas como: Tierra roja, Cosecha de algodón,
Tierra gris, Tierra gris húmeda, Tierra con vegetación, Cada terreno gris húmedo. El
artículo se estructura en: una introducción en la cual se destaca la importancia del
modelo de los SOM y la ART2 para la clasificación de imágenes; descripción de los
algoritmos utilizados por las dos redes neuronales artificiales en mención; información
relevante al problema; uso de las redes SOM y ART2 en la clasificación de imágenes
satelitales; y planteamiento de conclusiones y trabajos futuros.
Por otra parte Atkinson & Tatnall [104] presentan un trabajo que se ocupa
específicamente del uso de redes neuronales en la teledetección, haciendo énfasis en las
RNA MLP feed-forward, indican que las aplicaciones más comunes de las redes
neuronales en la teledetección están en la clasificación de la tierra y las nubes. En este
mismo trabajo los autores hacen algunas referencias a publicaciones anteriores de
Howald[105], McClelland [106], Hepner [107] y Downey [108] indicando que todos
aplican algoritmos de redes neuronales en la clasificación de cobertura de la tierra a
partir de imágenes Landsat Thematic Mapper (TM) y todos encuentran en diferentes
grados que el enfoque neuronal era más preciso que la clasificación estadística
tradicional. Kanellopoulos [96] llevaron a cabo un experimento para estimar veinte clases
de cobertura terrestre en imágenes SPOT de Alta Resolución Visible (HRV),
encontrando de nuevo que el enfoque neural fue más preciso. Decatur [109] aplica redes
neuronales para clasificar cobertura a partir de imágenes de radar (SAR) de apertura
sintética, Ersoy & Hong [110] aplicaron una red jerárquica de clasificación a las
imágenes obtenidas mediante el sistema de escáner multiespectral aerotransportado
(MSS), Tewolde & Cabral [111] realizan un análisis y modelamiento del fenómeno de
expansión urbana en la ciudad de Asmara, capital de Eritrea empleando imágenes
satelitales y herramientas geoespaciales para analizar los cambios de uso del suelo urbano
en un contexto espacio-temporal; emplearon una RNA MLP para modelar los mapas de
potencial de transición, los cuales fueron utilizados como insumo para la modelación
'real' urbana con cadenas de Markov, finalmente en contraste con las referencias
anteriores Civco [112] encontró que en ciertas circunstancias las redes neurales fueron en
realidad menos precisos que los métodos estadísticos convencionales para la clasificación
de cobertura de la tierra.
Al interior de la Universidad se han realizado trabajos investigativos que abordan el
tratamiento de imágenes satelitales realizando aplicaciones de la geoestadística y las
redes neuronales artificiales, pero sin realizar una unión entre ellas como la que propone
49
el presente trabajo. Entre algunas tesis desarrolladas dentro de la Maestría en Ciencias
de la Información y las Comunicaciones se encuentra el desarrollo de servicio grid
inteligente de clasificación de imágenes satelitales utilizando redes neuronales
artificiales[24], el desarrollo de un servicio grid para la clasificación no supervisada de
imágenes satelitales aplicando autómatas celulares[113], la elaboración de un modelo de
servicios web para la clasificación de imágenes digitales utilizando rough sets [114] y la
aplicación de algoritmos genéticos a la clasificación de imágenes de satélite en el marco
de los servicios grid inteligentes[115].
También se han desarrollado algunos trabajos de pregrado dentro de los que se pueden
mencionar el desarrollo de un estudio comparativo de topologías feed-forward y los SMO
para la comprensión de imágenes digitales[116], la estimación de información oculta por
nubes y sus sombras en imágenes satelitales empleando métodos geoestadísticos y
determinísticos[23], la implementación de un sistema prototipo para la clasificación del
arazá (Eugenia Stipitata Mc Vaugh) por grado de madurez utilizando redes neuronales
artificiales [117] y la clasificación de imágenes satelitales de alta resolución espacial
aplicando el algoritmo back propagation con la utilización de variables espectrales
texturales y geométricas para la obtención de coberturas y usos del suelo en zonas
urbanas[118].
Las referencias encontradas sobre trabajos donde se apliquen los métodos kriging a la
clasificación de información espacial, particularmente a la clasificación de imágenes
satelitales, se enfocan en la teoría de kriging ordinario, kriging categórico, kriging indicador
y de kriging factorial.
Algunos trabajos de clasificación de imágenes que involucran la aplicación de métodos
geoestadísticos se pueden encontrar en Van Der Meer [119] [120] quien introduce una
nueva técnica de clasificación de imágenes para el análisis de los datos de teledetección
basado en kriging indicador y posteriormente realiza una evaluación de un clasificador
basado en kriging indicador que se propuso en 1992, el cual combina la información
espacial y espectral en un modelo de decisión, el autor demuestra que la incorporación de
continuidad espacial en el proceso de clasificación puede aumentar en gran medida la
exactitud de las clasificaciones realizadas a partir de imágenes. Por otra parte Carvalho,
Soares & Bio [121] proponen una metodología para clasificar cobertura de la superficie
terrestre mediante una metodología geoestadística de la simulación estocástica, conocida
como co-simulación secuencial directa, mediante la combinación de las observaciones de
campo con los datos obtenidos en una clasificación realizada con el algoritmo clásico de
máxima probabilidad, mientras que Van Meirvenne & Goovaerts [122] en su trabajo
50
potencializan la eficiencia de las componentes principales a través de un filtrado de las
componentes empleando kriging Factorial; las componentes que se emplean finalmente en
la clasificación de la imagen son identificadas a partir de variogramas anidados e indican
los autores que el resultado obtenido supera los estudios realizados previamente con las
componentes principales originales.
Dentro de los trabajos previos realizados sobre la aplicación del método regresión-kriging
para clasificar cobertura en imágenes satelitales está el de Eldeiry & García[123], los
objetivos de este estudio son evaluar las mejores combinaciones de bandas para estimar
la salinidad del suelo con cada tipo de cultivo y comparar el método regresión-kriging y
técnicas cokriging cuando se aplica a las imágenes LANDSAT para generar mapas
precisos de salinidad del suelo; este estudio se realizó en un área en la parte sur de la
cuenca del río Arkansas en Colorado. También está el trabajo de Chiang, Liou, Wei
&Cheng[124] donde se propone el método kriging indicador para la clasificación de
imágenes satelitales; el estudio realiza un comparación entre el desempeño de los
métodos kriging indicador, el de máxima verosimilitud, el vecino más cercano y la
máquina de soporte vectorial los cuales se aplicaron para estudiar las áreas dentro de la
cuenca del embalse de Shimen sobre una imagen FORMOSAT-2 y en la ciudad de
Taipei sobre una imagen SPOT 4. Meng[125] aplica la regresión-kriging a la variación
local de la dependencia espacial de la estimación de parámetros de regresión y, como un
interpolador local-espacial híbrido, combina el modelo de regresión estimada con kriging
residual teniendo en cuenta la autocorrelación espacial entre los residuos; el autor emplea
un conjunto de datos proveniente de un mapa de bits de la banda 2 de una imagen
IKONOS que cubre la zona costera situada en el sureste de Camp Lejeune Carolina del
Norte con dos tipos de enfoques de muestreo. En esencia este estudio examina y compara
el rendimiento de la regresión-kriging y la regresión geográficamente ponderada.
Se han realizado otra serie de trabajos sobre clasificación pero ya no asociados al estudio
de uso de cobertura sino de suelo, dentro de estos trabajos está el de Carré &
Girard[126] donde se presenta una metodología para el mapeo de tipos de suelo a partir
de observaciones típicas en una base de datos de suelo, en una zona de La Rochelle, en la
costa del Atlántico medio francés, la principal hipótesis que subyace en el método es que
los tipos de suelo son resultado de factores ambientales tales como la forma de relieve,
material parental, y la cobertura vegetal; en este caso, las capas son atributos del terreno
derivadas de unos modelos digitales de elevación y de cobertura terrestre, atributos
derivados de tres bandas de una imagen SPOT. En este caso los métodos kriging se
aplican sobre los residuales de un mapa de los errores estándar. También Tsendbazar, De
Bruin, Fritz & Herold[127] presentan un estudio que evalúa la precisión espacial de los
51
mapas clasificación global de la tierra más recientes y comparan algunos métodos para la
creación de un mapa de cobertura terrestre mejorada. A partir de conjuntos de datos de
referencia GLOBCOVER-2009, la LC-CCI-2010, MODIS-2010 y mapas GLOBELAND30
se realizó un modelamiento para África, en este trabajo los mapas integrados de
cobertura de terrestres y las clases de probabilidad de la cobertura terrestre se calcularon
utilizando regresión-kriging. Finalmente se encuentran Omuto & Vargas[128] quienes
presentan la técnica de modelado de efectos mixto como una alternativa ingeniosa para
reconocimiento de las agrupaciones de suelo y la consiguiente mejora de la precisión en la
regresión-kriging en este desarrollo. El modelado permite la estimación de una regresión
simultánea para los modelos individuales de un grupo y para los diferentes grupos en el
paisaje; el caso de estudio fue Kenya.
La regresión-kriging también se ha aplicado sobre datos espaciales no provenientes de
sensores remotos, por ejemplo Araki, Yamamoto & Kondo[129] examinaron la aplicación
de la regresión-kriging a los contaminantes del aire en Japón con el fin de proporcionar
un método práctico para obtener una distribución espacial con suficiente precisión y una
alta resolución espacial (1 km × 1 km); emplearon los datos de monitoreo del aire de
regulación de los años 2009 y 2010, mientras que las variables predictoras fueron
preparados a partir de diferentes conjuntos de datos sobre los que se aplicaron la
regresión-kriging. Los resultados indicaron que la regresión-kriging es un procedimiento
práctico que se puede aplicar para la predicción de la distribución espacial de los
contaminantes del aire en Japón, con suficiente precisión y una alta resolución espacial.
Así mismo Zeng, Liu, Stein & Jia[130] supervisan y modelan la expansión urbana por
medio de una combinación de teledetección, sistemas de información geográfica y
estadística espacial (regresión-kriging), la metodología se aplica en la ciudad de Wuhan,
China, para el período de 1990 a 2013 y los resultados revelan que el suelo urbanizado se
ha ampliado y se han dispersado los grupos urbanos, siendo el crecimiento demográfico,
el desarrollo económico y el transporte las principales causas de la expansión urbana. En
el trabajo los modelos de regresión espacial muestran ser superiores a los modelos
tradicionales y concluyen los autores que la integración de la teledetección, los sistemas
de información geográfica y la estadística espacial ofrece una excelente oportunidad para
explorar la variación y las interacciones espacio-temporal entre los distritos de las zonas
metropolitanas y para controlar el proceso de expansión.
En dos trabajos más es posible encontrar temas relacionados con la aplicación de
métodos kriging sobre residuos para datos espaciales, uno de estos trabajos es el de
Szymanowski & Kryza[131] donde aplicaron el algoritmo de regresión geográfica
ponderada para derivar la estructura espacial de la isla de calor urbana en la ciudad de
52
Wroclaw, Polonia SW; estos resultados se compararon con los modelos de regresión
globales, usando diversos procedimientos estadísticos, entonces ambos modelos locales y
globales se extendieron por la interpolación de los residuos de la regresión y se utilizan
para la interpolación espacial de la estructura de la isla de calor urbano. Se encontró que
la incorporación de los residuos interpolados conduce a una mejora significativa de los
resultados de interpolación para ambos modelos. Finalmente Liu, Kyriakidis &
Goodchild[132] trabajaron en un método de interpolación por área basado en kriging,
que puede ser utilizado para desagregar los residuos resultantes de la regresión. El
método se ilustra mediante la desagregación de la población de las unidades del censo
para las zonas de uso del suelo dentro de estas.
53
5. Metodología
En la sección 3.2.3 se indicó que la clasificación de una imagen es una tarea que se
realiza con el propósito de convertir datos cuantitativos (generalmente los ND de los
pixeles en cada banda espectral) en datos cualitativos (clases)[36].
La motivación para proponer la regresión-kriging en la clasificación de imágenes surge
en principio por dos razones: la primera tiene que ver con la importancia de considerar
el componente espacial y la estructura de correlación que existe entre datos espaciales4 al
momento de diseñar el modelo predictivo, los métodos empleados usualmente en la
clasificación de imágenes (SVM, RNA, árboles de decisión, bosques aleatorios, entre
otros) no tienen en cuenta esta información pues se basan en las características
espectrales de los datos más no en las espaciales; lo segundo tiene que ver con las
dificultades conceptuales identificadas por Papritz[81] al trabajar con los datos de tipo
indicador cuando se emplean métodos geoestadísticos clásicos como el kriging o cokriging
indicador esto es: (1) el modelado inconsistente del semivariograma indicador, y (2) el
uso de semivariogramas globales que conduce a predicciones sesgadas debido a que los
residuos son, por definición, no estacionarios.
Atendiendo a lo anterior en el Diagrama 3 se plantea un metodología para clasificar
imágenes satelitales empleando la regresión-kriging, cuya construcción se realizó con
base a la propuesta presentada por Hengl[59]. Este autor plantea extender la regresión
logística multinomial a la regresión-kriging, entonces en el caso de la regresión logística,
la probabilidad de observar una clase ( ) en nuevas ubicaciones se calcula con la (Ec. 52)
posteriormente el modelo de regresión se complementa con el modelado de
semivariogramas para residuos de la regresión, que luego de ser interpolada y se añade
de nuevo a la estimación de regresión (Ec. 53). El proceso propuesto por Lizarazo [37]
también fue considerado en este diseño.
4 La información proveniente de las imágenes satelitales tiene el carácter de datos espaciales.
54
Figura 9. Metodología implementada para clasificar una imagen con regresión-kriging. Fuente: La investigación.
INICIO
Realizar análisis de normalidad a los residuos obtenidos del modelo
FIN
Transformar datos hasta obtener normalidad
Definir clases objetivo y el conjunto de atributos que se utilizarán
como variables predictivas en el modelo de deriva
Construir polígonos de entrenamiento para cada una de las clases
objetivo
Realizar ajuste del semivariograma para los residuos (ajustar un
semivariograma por cada clase)
Realizar AEDE unibanda y multibanda a la información
Aplicar modelo GLM o multinomial a toda la imagen para
obtener predicción
Realizar predicción con método kriging sobre los residuos
Construir modelo de deriva o tendencia a partir muestra de
entrenamiento
¿Los residuos siguen
una distribución
normal?
NO
SI
Sumar la predicción de residuos obtenidos vía kriging a la
predicción realizada con el modelo GLM o multinomial
Seleccionar muestras de entrenamiento y de validación
Seleccionar imagen a clasificar
Realizar evaluación de exactitud temática
Ajustar un semivariograma
por cada clase
Kriging Ordinario o Simple
Usar modelo apropiado como GLM o
multinomial
Las variables predictivas pueden ser
las bandas, índices, elevaciones,
componentes principales
55
5.1. Datos y AEDE
Para el procesamiento de la información se ha trabajado con el programa R-project
que es un software libre, cuenta con la licencia GNU General Public License y consta
de 4 libertades: Libertad 0: la libertad de ejecutar el programa como desee y con
cualquier propósito; Libertad 1: libertad de estudiar el funcionamiento del programa y
adaptarlo a sus necesidades; Libertad 2: La libertad de rescribir copias para ayudar a
los demás; y Libertad 3: La libertad de manejar el programa y publicar las mejorar,
de manera que toda comunidad se beneficie.
R es una plataforma estadística que ofrece todas las técnicas de análisis de datos,
además permite programar nuevos métodos y rutinas estadísticas de una manera fácil
y robusta. R es multiplataforma funciona en Mac, Windows y en numerosos sistemas
UNIX, esto significa que cualquier persona puede trabajar con los datos, figuras,
análisis y más importante aún usar el código programado para reproducir las figuras y
el análisis; por esto cualquier persona en cualquier lugar, puede usar R sin ninguna
licencia. Es de código abierto, existe una gran comunidad de voluntarios trabajando
para mejorarlo, lo cual le permite ser moldeado y dirigido a cuestiones específicas,
creando así programas y paquetes que funcionen en el entorno R. Algunos de estos
programas son R-studio, Java GUI for R, R- commander, RKWard, entre otros, y con
más de 6000 paquetes indexados en CRAN, Biocoductor, GitHub y R-Forge. Esta
comunidad de usuarios hace que se actualice constantemente.
Aparentemente R tiene limitaciones al procesar grandes vólumenes de información sin
embargo en la actualidad existen contibuciones en paquetes como “snowfal” y en
herramientas de líneas de comandos de UNIX como “sfCluster” las cuáles están
diseñadas para hacer más fácil y flexible la programación en paralelo sobre R.
Para el caso de estudio se ha extraído un recorte de una escena completa SPOT 5 del
14 de Marzo del año 2005 de la ciudad de Bogotá área urbana. La escena tiene una
resolución espacial de 10 metros por 10 metros y 4 bandas, con el siguiente
cubrimiento en el espectro:
• B1 (verde: 0,50 – 0,59 µm),
• B2 (rojo: 0,61 – 0,68 µm),
• B3 (infrarrojo cercano: 0,78 – 0,89 µm),
• B4 MIR (infrarrojo medio: 1,58 – 1,75 µm).
La banda B4 fue previamente remuestreada al tamaño de las bandas del visible.
56
La Figura 10 detalla el área de estudio sobre la cual se generarán las clasificaciones de
cobertura. Este recorte cubre parte de las localidades de Engativá, Barrios Unidos,
Fontibón, Teusaquillo y Chapinero en la ciudad de Bogotá, tiene un tamaño de 1151
por 545 pixeles y el área cubierta es de 1.568 hectáreas. En la imagen se pueden
identificar lugares como el parque Metropolitano Simón Bolívar, la Escuela Militar
General Militar Santander, una parte del campus de la Universidad Nacional de
Colombia, el estadio y coliseo el Campín, un sector de los cerros orientales e
incrustados en estos, la UPZ San Luis, uno de los barrios que marca el límite de la
ciudad con el municipio de la Calera.
Figura 10. Recorte escena Spot 5 ciudad de Bogotá en composición RGB-342 identificando puntos representativos
de la zona de estudio- Parque Metropolitano Simón Bolívar (1), la Escuela Militar General Santander (2), una
parte de campus de la Universidad Nacional de Colombia (3), el estadio y coliseo el Campín (4), un sector de los
cerros orientales (5), UPZ San Miguel (6). Fuente: La investigación.
La selección de la zona de estudio se realizó considerando el nivel de referencia que se
tenía del lugar, con el fin de hacer de manera inmediata la actividad de
reconocimiento en campo. Por otra parte se trabajó con una imagen que con
antelación había sido georreferenciada, que presenta bajos porcentajes de nubosidad y
ausencia de ruido; en algún otro caso puede ser importante revisar la escala y el
objetivo del trabajo para obtener la información adecuada. Para realizar el AEDE, se
generaron en el software “R” los histogramas de frecuencia por banda (Anexo 1-
Figura A), las estadísticas por banda (Anexo 1-Figura B), la matriz de covarianza
(Anexo 1-Figura C), la matriz de correlación (Anexo 1-Figura D) y los ploteos de
dispersión entre bandas (Anexo 1-Figura E); el AEDE deja ver que los datos de todas
las bandas presentan una distribución que se puede considerar normal, aunque se
1
2
3
4
5
6
57
evidencia algo de sesgo a derecha, que se puede ocasionar por la presencia de unas
nubes en la esquina inferior de la izquierda de la imagen. Las estadísticas multibanda
muestran una alta correlación entre las bandas 1 y 2, que se corrobora con la similitud
entre los valores de la media, del primer y el tercer cuartil para cada una de estas y
por otro lado las bandas 1 y 2 también exhiben por separado una alta correlación con
la banda 4.
En la zona cubierta por la imagen se identificaron 6 clases de cobertura
predominantes que se notaron de la siguiente manera: (1) edificaciones, (2) cuerpos de
agua, (3) vías, (4) pastos, (5) nubes y (6) bosques. Para construir los polígonos de
entrenamiento se tuvo especial cuidado en seleccionar muestras “puras”, es decir, se
evitó que dentro de los polígonos quedaran pixeles no característicos o no
representativos de la clase (Figura 11), esta tarea se realizó sobre el software ArcGIS
10.1.
Figura 11. Identificación polígonos de entrenamiento sobre la zona de estudio – Spot 5 ciudad de Bogotá en
combinación RGB-324. Fuente: La investigación.
En este trabajo se realizó una clasificación supervisada. La extracción de la muestra,
tanto de entrenamiento como de validación, se realizó con “R” recurriendo a un
muestreo aleatorio simple (MAS) sobre los polígonos de entrenamiento. El tamaño de
la muestra de entrenamiento se definió en 720 puntos teniendo en cuenta que se
cumpliera en lo mínimo el criterio dado por Mather[133] y el tamaño de la muestra de
validación en 1440 puntos, siguiendo la recomendación de autores como Isaac &
Simón[134] que sugieren que la muestra de validación tenga dos veces el tamaño de la
muestra de entrenamiento. Es importante anotar que ninguno de los puntos que
conforman la muestra de entrenamiento fue incluido en la muestra de validación.
58
Por otra parte, el análisis de separabilidad visual se realizó con diagramas de
dispersión entre bandas, encontrando en general que la mayor separabilidad la
presentaban las clases de nubes, cuerpos de agua, bosques y pastos, mientras que las
coberturas de edificaciones y vías tienen poco separabilidad en una amplia región del
espectro (Figura 12).
(a) (b) (c)
(d) (e) (f)
Figura 12. Diagramas de dispersión de clases entre (a) banda 1 y banda 2, (b) banda 1 y banda 3, (c) banda 1 y
banda 4, (d) banda2 y banda 3, (e) banda 2 y banda 4 y (f) banda 3 y banda 4. Fuente: La investigación.
5.2. Modelo de regresión multinomial
Como se indicó previamente la regresión-kriging combina dos enfoques, emplea la
regresión para ajustar la variación de la variables objetivo (explicada) y kriging simple
con valor esperado 0 se utiliza para ajustar los residuos, es decir, la variación no
explicada[60]. En otras palabras la regresión-kriging resuelve los coeficientes del
modelo de deriva o tendencia, mientras que los residuos son interpolados con un
método kriging.
59
Tabla 3. Coeficientes modelo de regresión multinomial
Intercepto Banda 1 Banda 2 Banda 3 Banda 4
2 78.94326 0.7111488 0.23331522 0.13909601 0.3612990
3 46.95352 0.3299733 0.08809266 0.08348483 0.2448964
4 15.19361 0.2252828 1.61065766 1.18816424 0.9644961
5 -28.00588 0.3008365 1.23104203 0.94304360 0.4982073
6 189.87716 0.4434714 2.05603673 0.71339397 0.2705410
Residual Deviance: 167.8443 - AIC: 217.8443
En este caso de estudio se ajustó un modelo de regresión multinomial como modelo de
tendencia (Tabla 3), para lo cual se usó la librería nnet del software “R”. En este caso
la variable objetivo es la “clase” que toma seis valores: (1) edificaciones, (2) cuerpos
de agua, (3) vías, (4) pastos, (5) nubes y (6) bosques, las variables auxiliares o
predictivas fueron las cuatro bandas de la imagen SPOT 5.
A continuación se extrajeron los residuos del modelo sobre los cuáles se realizaron
pruebas de normalidad. Al verificar los histogramas de frecuencia (Figura 13) se
encuentra que estos residuos presentan una distribución que se puede considerar
normal, aunque se evidencia algo de sesgo a derecha, la mayor parte de las
observaciones se ubica hacía el valor medio. Lo anterior se confirma con los resultados
obtenidos al aplicar los test de Shapiro-Wilk y Kolmogorov-Smirnov.
(a) (b) (c)
(d) (e) (f)
Figura 13. Histogramas de frecuencia para residuos (a) Clase 1 - Edificaciones, (b) Clase 2 - Cuerpos de Agua, (c)
Clase 3 - Vías, (d) Clase 4 - Pastos, (e) Clase 5 - Nubes y (f) Clase 6 - Bosques Fuente: La investigación.
60
Tabla 4. Test de normalidad para residuos
Residuos Clase Test Shapiro-Wilk (D) Test Kolmogorov-Smirnov (W)
Edificaciones 0.40218 0.37855
Cuerpos de Agua 0.31436 0.41085
Vías 0.55295 0.38333
Pastos 0.037728 0.49044
Nubes 0.053861 0.49887
Bosques 0.059954 0.49428
5.3. Ajuste del semivariograma de los residuos
Para construir los semivariogramas muestrales de los residuos se consideró el
estimador clásico definido en la (Ec. 11). Los semivariogramas experimentales de los
residuos asociados a las clases de edificaciones (Figura 14a), cuerpos de agua (Figura
14b) y vías (Figura 14c) exhiben una estructura de correlación susceptible de
ajustarse con un modelo teórico, sin embargo los semivariogramas de las tres clases
restantes (Figura 14d, 14e, 14f) resultaron ser solo ruido, por tal motivo solo se ajustó
semivariograma para los residuos que muestran una correlación entre ellos.
De lo anterior se concluye que para las clases pastos, nubes y bosques la predicción
obtenida al aplicar el modelo multinomial es la definitiva, solo a las predicciones de
las clases edificaciones, cuerpos de agua y vías se les adicionaó la predicción de los
residuos obtenida vía kriging.
El ajuste de los semivariogramas se realizó con un modelo esférico y considerando
cuatro métodos de ajuste Máxima Verosimilitud (ML), Máxima Verosimilitud
Restringida (RML), MCO, Mínimos Cuadrados Ponderados (MCP).
Los parámetros de ajuste para la clase de edificaciones se presentan en la tabla 5, los
de la clase cuerpos de agua en la tabla 6 y los de la clase vía en la tabla 7. En los tres
casos el método de ajuste que arrojó menor error fue el de MCP; esto se puede
corroborar visualmente en la Figura 15.
61
(a) (b) (c)
(d) (e) (f)
Figura 14. Cálculo semivariograma muestral con estimador clásico por clase (a) Clase 1 - Edificaciones, (b) Clase
2 - Cuerpos de Agua, (c) Clase 3 - Vías, (d) Clase 4 - Pastos, (e) Clase 5 - Nubes y (f) Clase 6 - Bosques Fuente:
La investigación.
Tabla 5. Parámetros obtenidos al ajustar los semivariogramas para la clase 1 - Edificaciones. Fuente: La
investigación.
Meseta Modelo Rango Error
ML 0.03478942538 Esférico 686.9064231 6.369386e-05
RML 0.287275471 Esférico 2000 0.04548663
MCP 0.03846539924 Esférico 1523.391824 4.470523e-05
MCO 0.02934907653 Esférico 512.6882407 0.0001038881
Tabla 6. Parámetros obtenidos al ajustar los semivariogramas para la clase 2 – Cuerpos de Agua. Fuente: La
investigación.
Meseta Modelo Rango Error
ML 0.03252535161 Esférico 906.0954905 5.735028e-05
RML 0.04853004553 Esférico 2000 0.0002556267
MCP 0.03186043207 Esférico 673.5647533 5.23578e-05
MCO 0.03153611357 Esférico 885.9881405 5.703054e-05
Parámetros
Modelo
Parámetros
Modelo
62
Tabla 7. Parámetros obtenidos al ajustar los semivariogramas para la clase 3 - Vías. Fuente: La investigación.
Meseta Modelo Rango Error
ML 0.06486495189 Esférico 811.1736869 7.196684e-05
RML 0.2913801768 Esférico 2000 0.03657255
MCP 0.06478527158 Esférico 803.7201024 7.195413e-05
MCO 0.0627748535 Esférico 780.912787 7.531754e-05
(a) (b) (c)
Figura 15. Ajuste de modelo de semivarianza esférico clase (a) Clase 1 - Edificaciones, (b) Clase 2 - Cuerpos de
Agua, (c) Clase 3 - Vías. Fuente: La investigación.
Los modelos de semivarianza que definen la estructura de correlación de los residuos
están dados por la (Ec. 56) para la clase de edificaciones, por la (Ec. 57) para la clase
de cuerpos de agua y por la (Ec. 58) para la clase de vías.
( ) (
(
)
(
) ) (56)
( ) (
(
)
(
) ) (57)
( ) (
(
)
(
) ) (58)
5.4. Método kriging sobre residuales
El método kriging empleado para interpolar los residuos fue el kriging simple
asumiendo un valor esperado de 0 [60] y considerando los cinco vecinos más cercanos
en la predicción de los puntos donde se desea conocer el valor de la variable objetivo,
esto es la “clase”. En la Figura 16 se presentan las predicciones obtenidas y las
varianzas asociada a cada predicción.
Parámetros
Modelo
63
Posteriormente se aplicó el modelo de regresión multinomial obtenido en la sección 5.2
a toda la imagen y se sumó a este resultado las predicciones de los residuos realizadas
vía kriging simple.
(a) (b)
(c) (d)
(e) (f)
Figura 16. Predicción de residuos y varianza de la predicción obtenida con kriging simple (a) Predicción residuos
Clase 1 - Edificaciones, (b) Varianza predicción residuos Clase 1 - Edificaciones (c) Predicción residuos Clase 2 -
Cuerpos de Agua, (d) Varianza predicción residuos Clase 2 - Cuerpos de Agua, (e) Predicción residuos Clase 3 -
Vías y (f) Varianza predicción residuos Clase 3 - Vías. Fuente: La investigación.
64
6. Resultados
A partir de los elementos construidos en los numerales anteriores se obtuvo el mapa
de clases con la regresión-kriging. Para tener un primer acercamiento a la bondad que
tiene la regresión kriging se generó un mapa de clasificación solo con el resultado
obtenido al aplicar el modelo de regresión multinomial (Figura 17) y otro aplicando la
regresión-kriging (Figura 18).
Figura 17. Clasificación de la imagen obtenida mediante modelo multinomial. Fuente: La investigación.
Figura 18. Clasificación de la imagen obtenida mediante regresión-kriging. Fuente: La investigación.
65
Visualmente es posible notar un cambio significativo entre las coberturas de
edificaciones y vías. En el AEDE realizado en la sección 5.1 se evidenció la existencia
de una alta correlación entre estas clases, así como también entre las clases cuerpos de
agua y vías, hecho que hizo anticipar las dificultades que podrían tener los
clasificadores al asignar un pixel a una u otra de estas clases.
Al verificar las matrices de confusión obtenidas con cada método (Tablas 8 y 9), en
efecto la mayor cantidad de pixeles que no fueron correctamente clasificados se
encuentran en las clases de edificaciones, vías y cuerpos de agua.
Tabla 8. Matriz de confusión asociada a la clasificación realizada mediante modelo multinomial. Fuente: La
investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 427 0 19 0 0 0
Cuerpos de Agua 0 129 9 0 0 1
Vías 22 13 148 0 0 0
Pastos 0 0 0 271 0 1
Nubes 0 0 0 0 133 0
Bosques 0 0 0 0 0 260
Tabla 9. Matriz de confusión asociada a la clasificación realizada mediante regresión-kriging. Fuente: La
investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 438 0 10 0 1 0
Cuerpos de Agua 11 124 7 1 0 0
Vías 50 3 118 0 0 0
Pastos 0 0 0 271 0 0
Nubes 0 0 0 0 140 0
Bosques 0 0 0 16 0 246
Para realizar el ejercicio de comparación de desempeño de la regresión-kriging con el
de métodos no convencionales, se obtuvieron clasificaciones a partir de los métodos
SVM, Distancia Mahalanobis, RNA, Árboles de Decisión y Bosques Aleatorios, sobre
la misma imagen SPOT 5 del 14 de Marzo del año 2005 de la ciudad de Bogotá. Para
el desarrollo de este trabajo se siguió la metodología sugerida por Lizarazo[37].
En “R”, se ejecutaron los algoritmos para la clasificación de la imagen de los cinco
métodos y finalmente se realizó la evaluación de exactitud temática a partir de la
clasificación arrojada por los algoritmos y la muestra de validación que previamente se
había construido. Se observará que cuando se habla de los métodos SVM, árboles de
decisión, RNA y bosques aleatorios las opciones para implementar los algoritmos son
Terreno
Predicción
Terreno
Predicción
66
múltiples, es decir, los resultados que se pueden obtener al aplicar el método SVM
estarán en función del kernel y los parámetros que se definan al ejecutarlo, ocurre lo
mismo con los árboles de decisión dependiendo de cómo se estructura del árbol, del
método de selección de atributos y el algoritmo empleado, el método puede arrojar
diferentes resultado para la misma serie de datos.
En este trabajo el algoritmo del método SVM, se configuró con una función de base
radial con parámetros sigma=2,5 - C=10 como kernel; para seleccionar el árbol de
decisión se realizaron pruebas con dos librerías de “R”, rpart (Recursive partitioning
and regression trees) que implementa muchas de las ideas que abarca CART y la
librería tree que hace lo propio también con algoritmo CART, al final se construyeron
tres árboles de decisión (Anexo 2) y se escogió el que mostró un buen resultado de
exactitud temática y que además se ajustaba a la cobertura real del terreno según el
conocimiento previo que se tenía de la zona; en el caso de bosques aleatorios se tuvo
en cuenta la importancia a las variables (Anexo 4) y el bosque se construyó con 500
árboles5; para las RNA se realizaron pruebas con tres librerías de “R” nnet, neuralnet
y RSNNS; como en el caso de los árboles de decisión se selección para la comparación
final la RNA que mostró el mejor resultado en exactitud temática (Anexo 3).
Uno de los resultados de este trabajo son las clasificaciones obtenidas mediante la
aplicación de los métodos de clasificación existentes a los cuales se ha hecho referencia
en los apartados anteriores (Figura 19, 20, 21 y 22).
Figura 19. Clasificación de la imagen obtenida mediante el algoritmo SVM. Fuente: La investigación.
5 Una vez se realizaron múltiples pruebas con diferentes valores en el parámetro número de árboles se encontró que con 500 se
obtenían los mejores resultados en exactitud temática.
67
Figura 20. Clasificación de la imagen obtenida mediante el algoritmo Distancia de Mahalanobis. Fuente: La
investigación.
Figura 21. Clasificación de la imagen obtenida mediante el algoritmo Bosques Aleatorios. Fuente: La
investigación.
Figura 22. Clasificación de la imagen obtenida mediante el algoritmo Redes Neuronales Artificiales (nnet).
Fuente: La investigación.
68
De los tres árboles de decisión presentados en el Anexo 2 se escogió el árbol obtenido
con la librería rpart, la selección obedece no solo a los resultados obtenidos en la
evaluación de exactitud temática de cada clasificación sino también al conocimiento
que se tiene de la zona de estudio. Aunque la clasificación obtenida con la librería tree
sin poda muestra mejores resultados en la evaluación de exactitud temática,
visualmente la clasificación obtenida con la librería rpart representa con mayor
fidelidad la cobertura real, ejemplo de ello son las imágenes presentadas en la Figura
24a y 24c donde se aprecia que una gran parte de cobertura que corresponde a
edificaciones fue clasificada como vías usando la librería tree, aunque en las imágenes
Figura 24b y 24d se aprecia una generalización sobre algunos pixeles que corresponden
a vías en la clasificación realizada con la librería rpart resulta menos grave este efecto
que el presentado en el caso de las Figuras 24a y 24c. Por lo anterior y dado que la
diferencia en la medición de exactitud temática e intervalos de confianza es mínima
entre las dos clasificaciones se toma la clasificación obtenida mediante rpart para ser
tenida en cuenta en la comparación de métodos (Figura 23).
Figura 23. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la librería rpart.
Fuente: La investigación.
En el Anexo 5 del trabajo se puede tener acceso al código “R” empleado para
desarrollar todo el trabajo.
69
(a) (b)
(c) (d)
Figura 24. Comparación visual de la clasificación obtenida mediante el algoritmo Arboles de Decisión usando la
librería tree (a) (c) y la librería rpart (b) (d). Fuente: La investigación.
Es posible notar de las matrices de confusión, que tal como ocurrió en la clasificación
realizada con regresión-kriging, son las coberturas de edificaciones y vías las que
mayor cantidad de pixeles “mal” clasificados presentan en la aplicación de los cinco
métodos como se había sugerido inicialmente en el análisis de separabilidad visual.
Entre los cuerpos de agua y las vías también presentan algunos pixeles mal
clasificados que deben ser tenidos en cuenta en las clasificaciones SVM, distancia
Mahalanobis y bosques aleatorios. En las clasificaciones de distancia Mahalanobis y
árboles de decisión son las coberturas de pastos y bosques las que presentan confusión
en la clasificación.
Tabla 10. Matriz de confusión asociada a la clasificación realizada mediante SVM. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 427 1 14 0 0 0
Cuerpos de Agua 0 130 2 0 0 0
Vías 22 11 160 0 0 0
Pastos 0 0 0 271 0 0
Nubes 0 0 0 0 140 0
Bosques 0 0 0 0 0 262
Terreno
Predicción
70
Tabla 11. Matriz de confusión asociada a la clasificación realizada mediante Distancia Mahalanobis. Fuente: La
investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 438 0 10 0 1 0
Cuerpos de Agua 11 124 7 1 0 0
Vías 50 3 118 0 0 0
Pastos 0 0 0 271 0 0
Nubes 0 0 0 0 140 0
Bosques 0 0 0 16 0 246
Tabla 12. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión con la librería
rpart. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 418 0 31 0 0 0
Cuerpos de Agua 0 126 11 3 0 2
Vías 20 0 151 5 0 0
Pastos 1 0 0 270 0 0
Nubes 4 0 0 0 136 0
Bosques 0 0 0 11 0 251
Tabla 13. Matriz de confusión asociada a la clasificación realizada mediante RNA (nnet). Fuente: La
investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 422 2 19 0 0 0
Cuerpos de Agua 0 127 7 1 0 1
Vías 26 12 148 0 0 0
Pastos 0 0 1 270 0 0
Nubes 0 0 0 0 140 0
Bosques 0 1 1 0 0 261
Tabla 14. Matriz de confusión asociada a la clasificación realizada mediante Bosques Aleatorios. Fuente: La
investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 421 1 14 0 0 0
Cuerpos de Agua 0 130 12 0 0 0
Vías 28 10 150 0 0 0
Pastos 0 0 0 271 0 0
Nubes 0 0 0 0 140 0
Bosques 0 1 0 0 0 262
Al realizar la evaluación temática (Tabla 15) lo que se encuentra es que en efecto el
ajuste de las predicciones realizadas con el modelo multinomial adicionando las
estimaciones de los residuales vía kriging simple (regresión-kriging) disminuyó el error
Terreno
Predicción
Terreno
Predicción
Terreno
Predicción
Terreno
Predicción
71
de la clasificación en 2.78% con respecto al mismo modelo multinomial puro, por lo
tanto se aumentó el porcentaje de información correctamente clasificado en la misma
proporción y se redujo el rango del intervalo de confianza de la clasificación en 0.72%.
De los cinco (5) métodos no convencionales el que arrojó mejores resultados en la
evaluación de exactitud temática fue el SVM.
Tabla 15. Resultado de la evaluación temática de las clasificaciones. Fuente: La investigación.
Error de la
clasificación
(%)
Índice Kappa
(%)
Porcentaje
Correctamente
Clasificado –
PCC (%)
Intervalo de confianza de la
clasificación al 95%
Rango del
Intervalo de
Confianza
(%)
Límite
Inferior (%)
Límite
Superior (%)
SVM 3,47 97,16 96,53 95,45 97,36 1,90
Distancia
Mahalanobis 7,15 94,03 92,85 91,39 94,07 2,67
Árboles de
Decisión
(rpart)
6,11 94,28 93,89 92,53 95,01 2,48
RNA
(neuralnet) 5,00 95,75 95,00 93,75 96,01 2,26
Bosques
Aleatorios 4,58 96,34 95,42 94,21 96,38 2,17
Modelo
Multinomial 5,00 95,45 95,00 93,75 96,01 2,26
Regresión-
kriging 2,22 97,60 97,78 96,88 98,42 1,54
Comparación
SVM vs
Regresión-
kriging
1,25 0,44 1,25 --- --- 0,36
A partir de lo anterior el resultado más relevante es que el error de la clasificación al
emplear la regresión-kriging se redujo en 1,25% con respecto al resultado obtenido con el
mejor método no convencional (SVM), el índice kappa aumentó 0,44% y el rango del
intervalo de confianza de la clasificación se redujo en 0,36%, lo que confirma la hipótesis
planteada al inicio del trabajo.
Resultado
evaluado
Método
72
7. Análisis de Resultados
La impresión visual de la clasificación obtenida por los seis métodos (regresión-kriging,
SVM, árboles de decisión, distancia Mahalanobis, bosques aleatorios y RNA), en el
lado oriental de la ciudad, es buena en términos generales, en la clasificación SVM se
exceptúan algunos pixeles que fueron clasificados como cuerpos de agua y que por la
referencia que se tiene del lugar se sabe que no lo son, aunque con bosques aleatorios
y distancia Mahalanobis también se presentó ese problema es menor el porcentaje de
pixeles mal clasificados; en esta misma área el trazado de algunas vías principales e
incluso de algunas vías secundarias alcanza a definirse con claridad en todas las
clasificaciones. Visualmente la cobertura de bosques, predominante en esta zona,
presenta el mejor resultado en la clasificación realizada con RNA y regresión-kriging
(Figura 25).
En el lado occidental de la ciudad, margen izquierda parte inferior de la imagen, se
encuentran varias zonas donde la clasificación no corresponde con la cobertura
existente del lugar, esto ocurre en las seis clasificaciones; por ejemplo, en el barrio de
la Esmeralda en cercanía al Parque Metropolitano Simón Bolívar y también en los
sectores de Ciudad Salitre y Modelia, ciertos pixeles que debían quedar en la clase de
edificaciones fueron clasificados como vías (Figura 26); la Avenida el Dorado que se
esperaba quedará clasificada como vía, quedó clasificada en algunos tramos como
cuerpo de agua en la clasificaciones realizada con SVM, RNA y bosques aleatorios, lo
mismo ocurrió con algunos pixeles ubicados en los límites de las coberturas
edificaciones y vías (Figura 27). A pesar de que la clasificación obtenida con árboles
de decisión tiene importantes niveles de confusión entre las vías y las construcciones,
esta misma se constituiría en la representación más acertada de la cobertura existente
en la zona.
73
(a) (b)
(c) (d)
(e) (f)
Figura 25. Clasificación obtenida para el sector de los cerros orientales con los métodos (a) SVM, (b) Distancia
Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging. Fuente: La
investigación.
74
(a) (b)
(c) (d)
(e) (f)
Figura 26. Identificación zonas con problemas de clasificación realizada con los métodos (a) SVM, (b) Distancia
Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging, en el sector de la
Esmeralda y Ciudad Salitre. Fuente: La investigación.
El problema evidenciado en la Figura 26, se puede atribuir principalmente a la
resolución espacial de la imagen y a la miscelánea de coberturas que se presentan en
estos sectores; los barrios de la Esmeralda, Modelia y Salitre Plaza se caracterizan por
tener bastantes zonas verdes, alamedas arborizadas, andenes con jardines, árboles y
prado, lo que posiblemente ocasiona que la respuesta espectral de las coberturas de
vías y edificaciones se vea afectada por la respuesta espectral de estos elementos; con
anterioridad ya se tenía algún indicio de este mismo hecho, en la Figura 10 las
edificaciones en esos sectores, muestran unas tonalidades más opacas comparadas con
las edificaciones de otros sectores, motivo por el cual al generar los polígonos de
75
entrenamiento no se tomaron muestras de edificaciones en esos puntos de la imagen,
ya que se corría el riesgo de tomar pixeles no característicos de la cobertura. Ocurre lo
opuesto en la zona delimitada por la Av. NQS, la Calle 80, la Calle 45 y la Av.
Caracas, así como todo el sector a la Escuela Militar General Santander, donde la
clasificación en edificaciones es muy fiel a la realidad, allí escasamente se identifican
algunos parques, hay poca presencia de alamedas y vegetación en las aceras (Figura
28).
(a) (b)
(c) (d)
(e) (f)
Figura 27. Identificación zonas con problemas de clasificación realizada con los métodos (a) SVM, (b) Distancia
Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging, en un tramo de la
Av. El Dorado. Fuente: La investigación.
76
(a) (b)
(c) (d)
(e) (f)
Figura 28. Identificación cuadrante Av. NQS, Calle 80, Av. Caracas, Calle 45 sobre la clasificación realizada con
los métodos (a) SVM, (b) Distancia Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f)
regresión-kriging. Fuente: La investigación.
77
8. Conclusiones
En el presente trabajo se propuso el uso de la regresión-kriging como un método para
clasificar de imágenes satelitales y se realizó una comparación de su desempeño con el
de cinco los métodos no convencionales más populares en la realización de esta tarea,
en general los resultados que se han obtenido con los seis son bastantes buenos. El
trabajo muestra una superioridad del método propuesto en la investigación, la
regresión-kriging, sobre los otros algoritmos, el algoritmo no convencional con mejor
desempeño fue SVM y la distancia Mahalanobis el método de más bajo desempeño
(Tabla 15), sin embargo desde un análisis más visual los árboles de decisión parecen
tener un buen desempeño, si se considera que este resultado guarda gran similitud la
cobertura existente.
No obstante lo anterior sería apresurado asegurar que estos serán los mejores
algoritmos para este tipo de datos, faltaría realizar otras pruebas sobre más imágenes
para atreverse a inferir tal cosa, el uso de simulaciones podría corroborar o refutar el
resultado obtenido en este trabajo. Lo anterior se concluye dado que aunque en
numerosos artículos científicos se han destacado las bondades de los métodos SVM,
árboles de decisión y bosques aleatorios en las tareas de clasificación sobre las de otros
métodos, como por ejemplo las RNA, algunos estudios han demostrado que no
siempre esos métodos resultan ser la mejor opción y faltarían algunas pruebas
adicionales para garantizar que los resultados siempre tendrían la misma tendencia.
Aunque claramente el resultado de este trabajo ya es un punto de partida para
futuros trabajos y desarrollos, en este momento lanzar un juicio a priori sobre la
pertinencia de usar uno u otro método para este tipo de trabajos sería arriesgada, más
aún porque la selección del mismo dependerá en cada caso particular del problema
que se esté abordando, del tipo de datos que se tengan a disposición, del objeto de
estudio, de la escala de trabajo, de la disponibilidad de recursos físicos para el
procesamiento y cálculos, entre otros.
Nótese que en la mayoría de áreas revisadas resulta ser más fiel a la realidad, al
menos visualmente, la clasificación obtenida con el algoritmo de árboles de decisión
que la obtenida con los otros métodos, sin embargo la evaluación de exactitud
78
temática muestra que es el método regresión-kriging el que presenta resultados más
óptimos.
El resultado ideal de clasificación para una imagen quizás no esté en seleccionar solo
una clasificación, posiblemente esté en una composición de fragmentos de las
clasificaciones realizadas con diferentes métodos. Para esta imagen en particular
podría resultar conveniente no seleccionar una sola clasificación sino estructurar un
mosaico con varios de los resultados obtenidos.
Definitivamente el componente humano a la hora de tomar decisiones en los trabajos
de clasificación sigue siendo vital, aún no se ha alcanzado el nivel suficiente de
perfección en los algoritmos como para dejar solo en manos de la máquina ese tipo de
decisiones. El conocimiento que se debe tener sobre la zona de estudio y sobre el
comportamiento de la variable que se está procesando es vital para realizar la
selección apropiada del método de clasificación, en muchas ocasiones un aparente
sacrificio de exactitud puede representar ganancia en la veracidad de la clasificación.
De los métodos no convencionales que se revisaron SVM mostró los mejores resultados
en evaluación de exactitud temática y este resultado confirma ventajas que
anteriormente se le habían atribuido al método, como por ejemplo: se obtienen buenos
resultados aún con conjuntos de datos de entrenamiento pequeños, el proceso de
aprendizaje es un proceso matemático que permite obtener siempre el mejor
clasificador, una vez obtenido el modelo es sencillo implementarlo en diferentes
sistemas, tiene una alta velocidad de ejecución en la clasificación de grandes conjuntos
de datos, se manejan algoritmos complejos para reconocimiento de patrones no
lineales o extracción de características, pero para los propósitos del cálculo solo se
requiere trabajar con un algoritmo lineal, de relativamente fácil implementación
computacional.
No obstante lo anterior para el caso de estudio particular el método regresión-kriging
mostró ser superior a los demás método aplicados sobre la imagen lo que permite
corroborar la hipótesis planteada al inicio del trabajo, en efecto los métodos
geoestadísticos al considerar el componente espacial de la información, en particular su
estructura de correlación, ha arrojado mejores resultados en la evaluación de exactitud
temática comparado con otros métodos que se basan solo en las características
espectrales de la imagen satelital.
79
Si se revisan los resultados presentados en la Tabla 15 se encuentra que el error de la
clasificación al emplear la regresión-kriging se redujo en 1,25% con respecto al resultado
obtenido con SVM, el índice kappa aumentó 0,44% y el rango del intervalo de confianza de
la clasificación se redujo en 0,36%, lo que supera los límites fijados en la hipótesis del
trabajo.
Es importante resaltar el papel que ha tenido el software de procesamiento en el
desarrollo de este trabajo. “R” ha resultado ser una herramienta muy versátil que
cuenta con una innumerable gama de opciones para desarrollar algoritmos y
personalizar los resultados obtenidos en la ejecución de dicho algoritmos; el desarrollo
de librerías como raster, saca a “R” del contexto de software netamente estadístico y
lo lleva a un nuevo nivel. Si lo nota el lector la única tarea que no se realizó sobre “R”
fue la construcción de polígonos de entrenamiento ya que esto requería un proceso de
digitalización, por lo demás “R” resultó ser fundamental en este trabajo.
Se espera que el resultado de este proyecto pueda ser aplicado por empresas, tanto
privadas como públicas, dedicadas a la producción de información geográfica temática
relacionada con el estudio de uso y cobertura del suelo.
A nivel nacional los siguientes sectores podrían beneficiarse de los resultados del
proyecto:
Sector Ambiental
Sector Agropecuario
Sector Gestión del Riesgo
Sector Infraestructura y Transporte
Sector Minas y Energía
Sector Defensa
Y específicamente en instituciones que produzcan y traten información espacial
proveniente de imágenes satelitales como el Instituto Geográfico Agustín Codazzi
(IGAC), el Departamento Nacional de Planeación (DNP), el Instituto de Hidrología,
Meteorología y Estudios Ambientales (IDEAM), la Agencia Nacional de
Hidrocarburos (ANH), el Instituto Colombiano de Geología y Minería
(INGEOMINAS), la Dirección General Marítima (DIMAR), el Instituto de
Investigaciones Marinas y Costeras (INVEMAR), el Instituto Amazónico de
Investigaciones Científicas (SINCHI), entre otros.
80
La Maestría en Ciencias de la Información y las Comunicaciones cuenta con 12 grupos
de investigación. Se espera que el desarrollo del presente proyecto genere aportes que
contribuyan con la temática propuesta en la línea de investigación 1 del grupo de
investigación NIDE (Núcleo de Investigación en Datos Espaciales) que está dedicada
al análisis de imágenes orientado a la caracterización y detección de cambios en
objetos y fenómenos geográficos
Esta línea propone profundizar y desarrollar nuevos conceptos, métodos y técnicas de
análisis de imágenes que consideren no solamente la información espectral que poseen
los pixeles individuales sino la información de contexto espacial. De esta manera, el
análisis deja de ser únicamente la información espectral almacenada en cada pixel y se
incorporan otras características como la forma, el tamaño y la textura de los objetos y
fenómenos geográficos de interés.
El objetivo de esta línea es contribuir al entendimiento de los diversos
componentes del paisaje a diversas escalas y proveer metodologías que sirvan
para conocer el estado actual de diferentes elementos geográficos lo mismo que la
detección y cuantificación de los cambios que ocurren en esos elementos.
81
9. Recomendaciones y trabajos futuros
Para el problema de separabilidad que se presentó entre algunas clases se pueden
proponer dos soluciones, la primera tiene que ver con reevaluar si la escala de captura
de los datos base fue la apropiada para adoptar la definición del número de clases,
considerando además las particularidades que se pueden encontrar cuando se
manipulan datos de cobertura en una zona urbana, como era el caso del ejercicio; en
este sentido se puede pensar que el resultado de la clasificación mejoraría si
trabajando con la misma imagen se fusionan en una sola las clases edificaciones y vías
o por el contrario, si resulta de vital importancia para el trabajo hacer distinción de
estas clases, se podría pensar en adquirir información de alta resolución, quizás
imágenes Ikonos o imágenes fotogramétricas. La segunda opción sugiere dividir la
zona de estudio en dos o tres sub-zonas, realizar procesos de muestreo y clasificación
individuales según las particularidades de cada sub-zona y posteriormente reconstruir
la imagen inicial.
Al momento de realizar la selección final del método con el que se realizará la
clasificación de una imagen satelital en ocasiones la selección no debe estar solo en
función de los resultados que arrojan los test de evaluación de exactitud, la
experiencia de la persona que clasifica y la referencia que esta tenga del lugar de
estudio es determinante y vital en el producto final.
El código implementado en “R” que se presenta en el Anexo 5 para el algoritmo de
Mahalanobis, no fue el primero que se probó en el ejercicio, en su primera versión el
código incluía dos ciclos “for” y su tiempo de ejecución fue de un poco más de 106
horas en tiempo de usuario, casi 31.100 veces el tiempo que se reportó finalmente para
este método. Lo anterior es una ratificación de las dificultades que presenta la
implementación de estos ciclos y lo críticos que se vuelven estas rutinas en “R”.
Finalmente los siguientes son algunos trabajos futuros que pueden derivar de esta
investigación:
Realizar pruebas con la metodología propuesta, sobre imágenes que abarquen
zonas no urbanas para evaluar la efectividad de los métodos modelos de color,
82
tales como: Matiz (Hue), Saturación (Saturation) y Intensity (Intensidad)
(HSI); luminancia (luminance), en fase (In-phase) y cuadratura (quadrature)
(YIQ); Ciam, Magenta, Yellow y Black (CMYK) entre otros.
Weng[135], categoriza los sistemas de clasificación de imágenes en cinco
clasificadores basados: en pixel, en subpixel, contextuales, por campo y los
orientados a objetos. En el presente trabajo se harán comparaciones entre los
resultados obtenidos con la metodología propuesta y los resultados de
clasificadores basados en pixel, resultaría interesante comparar el desempeño de
la metodología propuesta con el de los cuatro clasificadores restantes
propuestos por Weng.
Otra posible tarea consiste en la ampliación de este trabajo a otro tipo de
imágenes satelitales. Incluso, podría ampliarse a brindar la opción de
compresión con pérdida, en beneficio de una mayor compresión.
Sería importante considerar el análisis de textura en la metodología propuesta.
Los problemas básicos del análisis de textura están agrupados en cuatro
amplias categorías: la segmentación de textura, la clasificación de textura, la
síntesis de textura y estudios de la forma de los objetos a partir de la
textura[136]. Este trabajo podría arrojar mejores resultados, comparado con los
que se puedan obtener en este trabajo.
Seguir explorando la integración de métodos convencionales para la
clasificación de imágenes con variables asociadas a la condición espacial de la
información geográfica o técnicas desarrolladas para su tratamiento, puede
mejorar el desempeño de los métodos.
83
Referencias
[1] N. BECERRA and E. ALTAMIRO, "Aprendizaje computacional," Vínculos,
vol. 9, 2012.
[2] B. TSO and P. MATHER, Classification Methods for Remotely Sensed Data.
Segunda Edición. London, UK: Taylor & Francis, 2009.
[3] F. J. SOLTERO and D. J. BODAS, "Clasificadores inductivos para el
posicionamiento web," El profesional de la información, vol. 14, 2005.
[4] C. CHASCO, Econometría espacial aplicada a la predicción-extrapolación de
datos microterritoriales. Madrid: Publicaciones de Economía de la Comunidad
de Madrid, 2003.
[5] R. GIRALDO, "Introducción a la Geoestadística," ed. Bogotá, Colombia:
Universidad Nacional de Colombia. Sede Bogotá, 2014.
[6] J. MARTÍNEZ and A. DÍAZ, "Fundamentos de teledetección espacial," ed.
Ciudad de México, México D.C.: Comisión Nacional del Agua. Jefatura de
Control Cartográfico, 2005.
[7] G. BETANCOURT, "Las Máquinas de Soporte Vectorial (SVMs)," Scientia et
Technica Año XI, 2005.
[8] B. DIXON and V. UDDAMERI, GIS and Geocomputation for Water Resource
Science and Engineering Primera Edición ed. Southerm Gate, Chichester: John
Wiley & Sons, Ltd, 2016.
[9] F. LARA, "Artificial Neural Networks: An Introduction," Journal of the
Mexican Society of Information, vol. 3, 1998.
[10] R. J. SCHALKOFF, Artificial Neural Networks. New York: McGraw-Hill
Series in Computer Science, 1997.
[11] M. DÍAZ, "Gesoestadística Aplicada," ed. Ciudad de México, México D.C.:
Instituto de Geofísica (UNAM) - Instituto de Geofísica y Astronomía
(CITMA), 2002.
[12] L. ANSELIN, "The future of spatial analysis in the social sciences," Geographic
Information Sciences, vol. 5, 1999.
[13] R. HAINING, “Data problems in spatial econometric modeling”. En “New
directions in spatial econometrics”, eds. L. Anselin y R. Florax. Berlín:
Springer-Verlag, 1995.
84
[14] W. TOBLER, "Lattice Tuning," Geographical Analysis, vol. 11, pp. 36 - 44,
1979.
[15] R. MORENO and V. E. VALCARCE, Técnicas econométricas para el
tratamiento de datos espaciales: La econometría espacial. Barcelona: Edicions
de la Universitat de Barcelona, 2000.
[16] N. CRESSIE, Statistics for spatial data. New York, 1993.
[17] H. S. SICHEL, "An experimental and theoretical investigation of bias error in
mine sampling with special reference to narrow gold reefs," Trans. Inst. Min.
Metall. London, vol. 56, 1947.
[18] H. S. SICHEL, "Mine Valuation and Maximun Likelihood," ed. Johannesburg:
University Witwatersrand, 1949.
[19] D. G. KRIGE, "A Statistical Approach to Some Basic Mine Valuation
Problems on the Witwatersrand," Journal of the Chemical, Metallurgical and
Mining Society of South Africa, vol. 52, pp. 119-139, 1951.
[20] G. MATHERON, Traite de Geostatistique Apliquee, Tome I. Memoires bureau
de Recherches Geologiques et Minieres. Paris: Technip, 1962.
[21] F. J. SAMPER and J. CARRERA, Geoestadística. Aplicaciones a la
Hidrogeología Subterránea. Barcelona: Centro Internacional de Métodos
Numéricos en Ingeniería. Universitat Politécnica de Catalunya, 1990.
[22] J. GONZÁLEZ, "Desarrollo De Un Plan Estrategico En Una Sociedad De
Tasacion Basado En La Geoestadistica," Organización Industrial y Gestión de
Empresas, Escuela Superior de Ingenieros de Sevilla, Sevilla, España, 2011.
[23] M. E. BERNATE, M. P. GAMBA, A. L. PINEDA, and B. R. RIVERA,
"Estimación de información oculta por nubes y sus sombras en imágenes
satelitales empleando métodos geoestadísticos," ed. Bogotá D.C: Universidad
Distrital Francisco José de Caldas. Ingeniería Catastral y Geodesia, 2008.
[24] D. DIAZ, "Servicio GRID inteligente de clasificación de imágenes satelitales
utilizando redes neuronales artificiales," ed. Bogotá D.C: Universidad Distrital
Francisco José de Caldas. Maestría en Ciencias de la Información y las
Comunicaciones, 2012.
[25] L. ANSELIN, "Exploratory Spatial Data Analysis and Geographic Information
Systems," Painho M (ed) New tools for spatial analysis, pp. 45 - 54, 1994.
[26] J. W. TUKEY, Exploratory Data Analysis: Addison-Wesley Publishing
Company, 1977.
[27] M. A. TORAL, "El factor espacial en la convergencia de las regiones de la
Unión Europea: 1980-1996," Facultad de Ciencias Económicas y Empresariales,
Universidad Pontificia Comillas, Madrid, España, 2001.
85
[28] M. SALVADOR and P. GALLARDO, "Introducción a las Finanzas," ed:
Universidad de Zaragoza, 2010.
[29] A. W. WARRICK, D. E. MYERS, and D. R. NIELSEN, Geostatistical
Methods Applied to Soil Science. Methods of Soil Analysis. Part 1. Physical
and Mineralogical Methods- Agronomy Monograph. Madison: Soil Science
Society of America Book, 1986.
[30] M. ARMSTRONG, Basic linear geostatistics: Editorial Springer, 1998.
[31] J. Q. CUADOR, "La geoestadística, su surgimiento y evolución," Avances
(Ciencia, Tecnología y Medio Ambiente - CITMA), vol. 2, 2000.
[32] R. M. REICH and R. DAVIS, "Quantitative spatial analysis," in Course Notes,
C. S. University, Ed., ed. Fort Collins, Colorado, 2003.
[33] E. GILLELAND, " Improving forecast verification through network design,"
presented at the 17th Conference on Probablity and Statistics in the
Atmospheric Sciences, Seattle, WA, 2004.
[34] A. G. JOURNEL, "Non-parametric estimation of spatial distribution,"
Mathematical Geology, vol. 15, pp. 445-468, 1983.
[35] A. SOARES, "Geostatistical estimation of multi-phase structures,"
Mathematical Geology, vol. 24, pp. 149-160, 1992.
[36] J. A. RICHARDS and X. JIA, Remote Sensing Digital Image Analysis.
Berlin,Germany: Springer-Verlag, 1999.
[37] I. LIZARAZO, "Clasificación de la cobertura y del uso del suelo urbano usando
imágenes de satélite y algoritmos supervisados de Inteligencia Artificial," UD y
la GEOMÁTICA, vol. 1, 2008.
[38] G. BRISCOE and T. CAELLI, A Compendium of Machine Learning Volume
1: Symbolic Machine Learning: Intellect Books, 1996.
[39] L. GEOSYSTEMS, ERDAS Field Guide™, Seventh Edition ed. United States
of America: Leica Geosystems GIS & Mapping, LLC, 2003.
[40] M. T. ESCOBEDO and J. A. SALAS, "P. Ch. Mahalanobis y las aplicaciones
de su distancia estadística," CULCyT: Cultura Científica y Tecnológica, vol.
27, pp. 13-20, 2008.
[41] E. GUTIERREZ, "Aplicación de las máquinas de soporte vectorial para el
reconocimiento de matrículas ", Escuela Técnica Superior de Ingeniería (ICAI),
Universidad Pontificia Comillas, Madrid, España, 2007.
[42] J. R. QUINLAN, Discovering rules by induction from large collections of
examples. In Expert systems in the micro-electronic age. Edinburgh, Scotland:
D. Michie, 1979.
[43] J. R. QUINLAN, "Induction of decision trees," Machine Learning, vol. 1, pp.
81–106, 1986.
86
[44] J. R. QUINLAN, C4.5: Algorithm for machine learning. San Mateo: Morgan
Kaufmann, 1993.
[45] G. V. KASS, "An exploratory technique for investigating large quantities of
categorical data," Applied Statistics, vol. 29, pp. 119–127, 1980.
[46] L. BREIMAN, J. FRIEDMAN, C. J. STONE, and R. A. OLSHEN,
Clasification and Regression Trees. New York: CRC Press, 1984.
[47] F. IZAURIETA and C. SAAVEDRA, "Redes Neuronales Artificiales," Revistas
Charlas de Física - Universidad de Concepción, vol. 16, 1999.
[48] D. E. RUMELHART, G. E. HINTON, and R. J. WILLIAMS, "Learning
representations by backpropagating errors," Letters To Nature, vol. 323, pp.
533 - 536, 1986.
[49] J. FREEMAN and D. SKAPURA, Redes Neuronales: Algoritmos, Aplicaciones
y Técnicas de Programación. México: Addison Wesley, 1991.
[50] D. J. MATICH, "Redes Neuronales: Conceptos Básicos y Aplicaciones," ed.
Rosario: Universidad Tecnológica Nacional. Departamento de Ingeniería
Química. Grupo de Investigación Aplicada a la Ingeniería Química (GIAIQ),
2001.
[51] P. MELIN and O. CASTILLO, Hybrid Intelligent Systems for Pattern
Recognition Using Soft Computing: An Evolutionary Approach for Neural
Networks and Fuzzy Systems. Berlin: Springer, 2005.
[52] A. NACELLE, "Redes neuronales artificiales - Monografía vinculada con la
conferencia del Prof. Dr Eduardo Mizraji sobre: "Las redes neuronales: de la
biología a los algoritmos de clasificación"," ed. Montevideo: Núcleo de
Ingeniería Biomédica. Facultades de Medicina e Ingeniería. Universidad de la
República, 2009.
[53] R. WEBSTER and M. A. OLIVER, Geostatistics for Environmental Scientists
- Second Edition. Southern Gate, Chichester, England: John Wiley & Sons,
Ltd, 2007.
[54] G. MATHERON, Le krigeage universel - Part 1: École nationale supérieure
des mines de Paris, Cahiers du Centre de morphologie mathématique de
Fontainebleau, 1969.
[55] T. HENGLA, G. B. M. HEUVELINK, and D. G. ROSSITER, "About
regression-kriging: From equations to case studies," Computers & Geosciences,
vol. 33, pp. 1301–1315, 2007.
[56] N. MC KENZIE and P. RYAN, " Spatial prediction of soil properties using
environmental correlation," Geoderma, vol. 89, 1999.
[57] N. DRAPER and H. SMITH, Applied Regression Analysis. New York: second
ed. Wiley, 1981.
87
[58] R. CHRISTENSEN, Plane Answers to Complex Questions: The Theory of
Linear Models. New York: second ed. Springer, 1996.
[59] T. HENGL, A Practical Guide to Geostatistical Mapping, Second Edition ed.
Luxembourgo: Office for Official Publications of the European Communities,
2009.
[60] T. HENGL, G. HEUVELINK, and A. STEIN, "A generic framework for spatial
prediction of soil variables based on regressionkriging," Geoderma, vol. 122,
2004.
[61] R. CHRISTENSEN, Linear Models for Multivariate Time Series and Spatial
Data. New York: Second ed. Springer, 2001.
[62] R. CHRISTENSEN, Linear Models for Multivariate, Time Series, and Spatial
Data. New York, 1990.
[63] T. HENGL, G. B. M. HEUVELINK, and D. G. ROSSITER, "About
regression-kriging: from theory to interpretation of results," Computers &
Geosciences, vol. 33, pp. 1301–1315, 2007.
[64] P. KITANIDIS, "Generalized covariance functions in estimation,"
Mathematical Geology, vol. 25, pp. 525–540, 1994.
[65] J. CHILES and P. DELFINER, Geostatistics: modeling spatial uncertainly.
New York, 1999.
[66] A. PAPRITZ and A. STEIN, "Spatial prediction by linear kriging," Spatial
statistics for remote sensing, pp. 83-113, 1999.
[67] J. RIVOIRARD, "On the structural link between variables in kriging with
external drift," Mathematical Geology, vol. 34, pp. 797-808, 2002.
[68] J. NETER, M. H. KUTNER, C. J. NACHTSHEIM, and W. WASSERMAN,
Applied Linear Statistical Models, 4 ed. Irwin, Chicago: McGraw-Hill
Companies, 1996.
[69] C. DEUTSCH and A. JOURNEL, GSLIB: Geostatistical Software and User’s
Guide, second ed. New York: Oxford University Press, 1998.
[70] H. WACKERNAGEL, Multivariate Geostatistics: An Introduction with
Applications. Berlín: second ed. Springer, 1998.
[71] R. WEBSTER and M. A. OLIVER, Geostatistics for Environmental Scientists
Statistics in Practice Southern Gate, Chichester, England: John Wiley & Sons,
Ltd, 2001.
[72] S. AHMED and G. DE MARSILY, "Comparison of geostatistical methods for
estimating transmissivity using data on transmissivity and specific capacity,"
Water Resources Research, vol. 23, pp. 1717–1737, 1987.
88
[73] I. ODEH, A. MCBRATNEY, and D. CHITTLEBOROUGH, "Further results
on prediction of soil properties from terrain attributes: heterotopic cokriging
and regression-kriging," Geoderma, vol. 67, pp. 215-226, 1995.
[74] P. GOOVAERTS, Geostatistics for Natural Resources Evaluation. New York:
Oxford University Press, 1997.
[75] M. YEMEFACK, D. G. ROSSITER, and R. NJOMGANG, "Multi-scale
characterization of soil variability within an agricultural landscape mosaic
system in southern Cameroon," Geoderma, vol. 125, pp. 117–143, 2005.
[76] C. A. GOTWAY and W. W. STROUP, "A Generalized Linear Model
approach to spatial data analysis and prediction," Journal of Agricultural,
Biological, and Environmental Statistics, vol. 2, pp. 157-198, 1997.
[77] M. L. STEIN, Interpolation of Spatial Data: Some Theory for Kriging. Series
in Statistics. New York: Springer, 1999.
[78] E. J. PEBESMA, "Multivariable geostatistics in S: the gstat package,"
Computers & Geosciences, vol. 30, pp. 683–691, 2004.
[79] M. F. P. BIERKENS and P. A. BURROUGH, "The indicator approach to
categorical soil data I: Theory," Journal of Soil Science, vol. 44, pp. 361-368,
1993.
[80] S. L. HESSION, A. M. SHORTRIDGE, and M. N. TORBICK, "Categorical
models for spatial data uncertainty. In: Caetano, M., Painho, M. (Eds.),"
Proceedings of the 7th International Symposium on Spatial Accuracy
Assessment in Natural Resources and Environmental Sciences (Accuracy
2006). Instituto Geográphico Português, pp. 386-395, 2006.
[81] A. PAPRITZ, "Limitations of Indicator Kriging for Predicting Data with
Trend.," in StatGIS Conference Proceedings, Milos, Greece, 2009, pp. 1-6.
[82] A. G. JOURNEL, "Constrained interpolation and qualitative information,"
Mathematical Geology, vol. 18, pp. 269–286, 1986.
[83] E. PARDO-IGUZQUIZA and P. A. DOWD, " Multiple indicator cokriging
with application to optimal sampling for environmental monitoring,"
Computers & Geosciences, vol. 31, pp. 1-13, 2005.
[84] W. N. VENABLES and B. D. RIPLEY, Modern applied statistics with S, 4th
Edition ed. New York: Springer-Verlag, 2002.
[85] N. BAILEY, T. CLEMENTS, J. T. LEE, and S. THOMPSON, " Modelling soil
series data to facilitate targeted habitat restoration: a polytomous logistic
regression approach.," Journal of Environmental Management, vol. 67, pp. 395-
407, 2003.
[86] J. J. DE GRUIJTER, D. J. J. WALVOORT, and P. F. M. VAN GAANS, "
Continuous soil maps — a fuzzy set approach to bridge the gap between
89
aggregation levels of process and distribution models," Geoderma, vol. 77, pp.
169-195, 1997.
[87] G. BRAGATO, "Fuzzy continuous classification and spatial interpolation in
conventional soil survey for soil mapping of the lower Piave plain," Geoderma,
vol. 118, pp. 1-16, 2004.
[88] J. TRIANTAFILIS, W. T. WARD, I. O. A. ODEH, and A. B. MCBRATNEY,
"Creation and Interpolation of Continuous Soil Layer Classes in the Lower
Namoi Valley," Soil Science Society of America Journal vol. 65, pp. 403-413,
2001.
[89] F. CARRÉ and M. C. GIRARD, "Quantitative mapping of soil types based on
regression kriging of taxonomic distances with landform and land cover
attributes," Geoderma, vol. 110, pp. 241–263, 2002.
[90] T. HENGL, N. TOOMANIAN, H. I. REUTER, and M. J. MALAKOUTI,
"Methods to interpolate soil categorical variables from profile observations:
lessons from Iran," Geoderma, vol. 140, pp. 417–427, 2007.
[91] A. B. MCBRATNEY, J. J. DE GRUIJTER, and D. J. BRUS, "Spatial
prediction and mapping of continuous soil classes," Geoderma, vol. 54, pp. 39–
64, 1992.
[92] J. NETER, M. H. KUTNER, C. J. NACHTSHEIM, and W. E.
WASSERMAN, Applied Linear Statistical Models, 4th Edition ed.: McGraw-
Hill, 1996.
[93] J. D. PAOLA and R. A. SCHOWENGERDT, "A detailed comparison of
backpropagation neural networks and maximum likelihood classifiers for urban
landuse classification," IEEE transactions on Geoscience and Remote Sensing,
vol. 33, pp. 981 - 996, 1995.
[94] R. W. FITZGERALD and B. G. LEES, "Assessing the classification accuracy
of multisource remote sensing data," Remote Sensing of the Environment, vol.
47, 1994.
[95] G. GERMAN, M. GAHEGAN, and G. WEST, "Statistical and AI Techniques
in GIS Classification: A Comparison," in Proc. SIRC Conference, The
University of Otago, New Zelanda, 1999.
[96] I. KANELLOPOULOS, A. VARFIS, G. G. WILKINSON, and J. ME’GIER,
"Land-cover discrimination in SPOT HRV imagery using an artificial neural
network: a 20-class experiment," International Journal of Remote Sensing, vol.
13, pp. 917 - 924, 1992.
[97] M. GAHEGAN and G. WEST, "The Classification of Complex Geographic
Datasets: An Operational Comparison of Artificial Neural Network and
90
Decision Tree Classifiers," in Geocomputation Conference Proceedings -
University of Bristol, United Kingdom, 1998.
[98] M. PESARESI and J. A. BENEDIKTSSON, "Classification of Urban High-
Resolution Satellite imagery Using Morphological and Neural Approaches," in
Proceedings of the 2000 International Geoscience and Remote Sensing
Symposium (IGARSS'00), Honolulu, Hawai, 200.
[99] G. SCHIAVON, F. DEL FRATE, and C. SOLIMINI, "High Resolution Multi-
Spectral Analysis of Urban Areas with QuickBird Imagery and Sinergy with
ERS Data," in Geoscience and Remote Sensing Symposium IGARSS'03,
Melboure, 2003.
[100] F. DEL FRATE, G. SCHIAVON, and C. SOLIMINI, "Application of neural
networks algorithms to QuickBird imagery for classification and change
detection of urban area," Proceedings of International Geoscience And Remote
Sensing Symposium, pp. 20-24, 2004.
[101] G. TORO and I. LIZARAZO, "Evaluación de las Redes Neuronales Artificiales
Perceptrón Multicapa y Fuzzy-Artmap en la Clasificación de Imágenes
Satelitales," Ingeniería, vol. 17, pp. 61 - 7, 2012.
[102] J. ZHANG and G. M. FOODY, "Fully-fuzzy supervised classification of sub-
urban land cover from remotely sensed imagery: Statistical and artificial neural
network approaches," International Journal of Remote Sensing, vol. 22, pp.
615-628, 2001.
[103] J. E. RODRÍGUEZ, "Redes neuronales artificiales para la clasificación de
imágenes satelitales," Desarrollo sostenible y tecnología. AVANCES
Investigación en Ingeniería, 2008.
[104] P. M. ATKINSON and A. R. L. TATNALL, "Introduction Neural networks in
remote sensing," International Journal of Remote Sensing, vol. 18, pp. 699-709,
1997.
[105] K. J. HOWALD, "Neural network image classification," in Proceedings of the
ASPRS-ACSM Fall Convention, (Falls Church, VA: American Society for
Photogrammetry and Remote Sensing), 1989.
[106] G. E. MCCLELLAND, R. N. DEWITT, T. H. DEWITT, L. N. MATHESON,
and G. O. MOE, "Multispectral image-processing with a three-layer back-
propagation network," in Proceedings of the International Joint Conference on
Neural Networks, New York: I.E.E.E., 1989.
[107] G. F. HEPNER, T. LOGAN, N. RITTER, and N. BRYANT, "Artificial neural
network classification using a minimal training set: comparison to conventional
supervised classification," Photogrammetric Engineering and Remote Sensing,
vol. 56, pp. 469 - 473, 1990.
91
[108] I. D. DOWNEY, C. H. POWER, I. KANELLOPOULOS, and G. G.
WILKINSON, "A performance comparison of Landsat Thematic Mapper land
cover classification based on neural network techniques and traditional
maximum likelihood algorithms and minimum distance algorithms,"
Proceedings of the Annual Conference of the Remote Sensing Society
(Nottingham: Remote Sensing Society), pp. 518 - 528, 1992.
[109] S. E. DECATUR, "Application of neural networks to terrain classification,"
Proceedings of International Joint Conference on Neural Networks, vol. 1
(Piscataway, NJ: I.E.E.E.), pp. 283 - 288, 1989.
[110] O. K. ERSOY and D. HONG, "Parallel self-organizing, hierarchical neural
networks," I.E.E.E. Transactions on Neural Networks, vol. 1, pp. 167 - 178,
1990.
[111] M. G. TEWOLDE and P. CABRAL, "Urban Sprawl Analysis and Modeling in
Asmara, Eritrea," Remote Sensing, vol. 3, pp. 2148 - 2165, 2011.
[112] D. L. CIVCO, "Artificial neural networks for land cover classification and
mapping," International Journal of Geographical Information Systems, vol. 7,
pp. 173 - 186, 1993.
[113] G. AMEZQUITA, "Servicio GRID para la clasificación no supervisada de
imágenes satelitales aplicando autómatas celulares," ed. Bogotá D.C:
Universidad Distrital Francisco José de Caldas. Maestría en Ciencias de la
Información y las Comunicaciones, 2009.
[114] J. C. CAICEDO, "Elaboración de un modelo de servicios web para la
clasificación de imágenes digitales utilizando rough sets," ed. Bogotá D.C:
Universidad Distrital Francisco José de Caldas. Maestría en Ciencias de la
Información y las Comunicaciones, 2009.
[115] J. G. HOYOS, "Aplicación de algoritmos genéticos a la clasificación de
imágenes de satélite en el marco de los servicios GRID inteligentes," ed. Bogotá
D.C: Universidad Distrital Francisco José de Caldas. Maestría en Ciencias de
la Información y las Comunicaciones, 2009.
[116] N. A. LUGO and A. F. ROLDAN, "Desarrollo de un estudio comparativo de
topologías feed-forward y mapas autoorganizados de redes neuronales para la
comprensión de imágenes digitales," ed. Bogotá D.C: Universidad Distrital
Francisco José de Caldas. Ingeniería Electrónica, 2011.
[117] L. ESPAÑA and C. A. CAMACHO, "Implementación de un sistema prototipo
para la clasificación del Arazá (Eugenia Stipitata Mc Vaugh) por grado de
madurez utilizando redes neuronales artificiales," ed. Bogotá D.C: Universidad
Distrital Francisco José de Caldas. Ingeniería de Sistemas, 2009.
92
[118] J. C. AMAYA, D. CALDERÓN, and J. A. ESCUDERO, "Clasificación de
imágenes satelitales de alta resolución espacial aplicando el algoritmo Back-
Propagation con la utilización de variables espectrales texturales y geométricas
para la obtención de coberturas y usos del suelo en zonas urbanas," ed. Bogotá
D.C: Universidad Distrital Francisco José de Caldas. Ingeniería Catastral y
Geodesia, 2010.
[119] F. VAN DER MEER, "Classification of remotely-sensed imagery using an
indicator kriging approach: application to the problem of calcite-dolomite
mineral mapping," International Journal of Remote Sensing, vol. 17, pp. 1233-
1249, 1996.
[120] F. VAN DER MEER, "Performance characteristics of the indicator classifier on
simulated image data," International Journal of Remote Sensing, vol. 17, pp.
621-627, 1996.
[121] J. CARVALHO, A. SOARES, and A. BIO, "Improving satellite images
classification using remote and ground data integration by means of stochastic
simulation," Journal: International Journal of Remote Sensing, vol. 27, pp.
3375-3386, 2006.
[122] M. VAN MEIRVENNE and P. GOOVAERTS, "Accounting for spatial
dependence in the processing of multi-temporal SAR images using factorial
kriging," International Journal of Remote Sensing, vol. 23, pp. 371-387, 2002.
[123] A. A. ELDEIRY and L. A. GARCIA, "Comparison of Regression Kriging and
Cokriging Techniques to Estimate Soil Salinity Using Landsat Images," Journal
of Irrigation and Drainage Engineering, vol. 136, pp. 355-364, 2010.
[124] J. L. CHIANG, J. J. LIOU, C. WEI, and K. S. CHENG, "A Feature-Space
Indicator Kriging Approach for Remote Sensing Image Classification " IEEE
Transactions On Geoscience And Remote Sensing, vol. 52, 2014.
[125] Q. MENG, "Regression Kriging versus Geographically Weighted Regression for
Spatial Interpolation," International Journal of Advanced Remote Sensing and
GIS vol. 3, pp. 606-615, 2014.
[126] F. CARRÉ and M. C. GIRARD, "Quantitative mapping of soil types based on
regression kriging of taxonomic distances with landform and land cover
attributes," Geoderma, vol. 110, pp. 241-263, 2002.
[127] N. E. TSENDBAZAR, S. DE BRUIN, S. FRITZ, and M. HEROLD, "Spatial
Accuracy Assessment and Integration of Global Land Cover Datasets," Remote
Sensing, vol. 7, pp. 15804-15821, 2015.
[128] C. T. OMUTO and R. R. VARGAS, "Re-tooling of regression kriging in R for
improved digital mapping of soil properti," Geosciences Journal, vol. 19, pp.
157-165, 2015.
93
[129] S. ARAKI, K. YAMAMOTO, and A. KONDO, "Application of Regression
Kriging to Air Pollutant Concentrations in Japan with High Spatial
Resolution," Aerosol and Air Quality Research, vol. 15, pp. 234-241, 2015.
[130] C. ZENG, Y. LIU, A. STEIN, and L. JIAO, "Characterization and spatial
modeling of urban sprawl in the Wuhan Metropolitan Area, China,"
International Journal of Applied Earth Observation and Geoinformation, vol.
34, pp. 10-24, 2015.
[131] S. M and K. M, "Local regression models for spatial interpolation of urban heat
island—an example from Wrocław, SW Poland," Theoretical and Applied
Climatology, vol. 108, pp. 53-71, 2012.
[132] X. H. LIU, P. C. KYRIAKIDIS, and M. F. GOODCHILD, "Population-density
estimation using regression and area-to-point residual kriging," International
Journal of Geographical Information Science vol. 22, pp. 431-447, 2008.
[133] P. MATHER, Computer processing of remotely-sensed images: An
introduction, 3rd edition ed., 2004.
[134] Q. ISAAC and A. SIMON. (2004, 22/03/2015). Introducción al Diseño de
Experimentos para el Reconocimiento de Patrones.
[135] Q. WENG, Remote Sensing and GIS Integration: Theories, Methods, and
Applications. New York: McGraw-Hil, 2009.
[136] M. TUCEYRAN and A. K. JAIN, "Texture analysis," in Handbook of Pattern
Recognition and Computer Vision, Chapter 2, ed Singapore: World Scientific,
1993, pp. 235 - 276.
94
Anexos
Anexo 1
Estadísticas unibanda
Figura 1.A. Histogramas de frecuencia. Fuente: La investigación.
Tabla 1.A. Estadísticas por banda. Fuente: La investigación.
Banda 1 Banda 2 Banda 3 Banda 4
Mínimo 64 65 18 29
1° Cuartil 108 106 70 85
Mediana 125 128 80 95
3° Cuartil 141 146 98 106
Máximo 255 254 245 255
NA’s 0 0 0 0
95
Tabla 1.B. Matriz de Covarianza. Fuente: La investigación.
Banda 1 Banda 2 Banda 3 Banda 4
Banda 1 876.10 926.28 161.58 450.09
Banda 2 926.28 1019.82 131.89 496.40
Banda 3 161.58 131.89 602.51 297.48
Banda 4 450.09 496.40 297.48 432.74
Tabla 1.C. Matriz de Correlación. Fuente: La investigación.
Banda 1 Banda 2 Banda 3 Banda 4
Banda 1 1.00 0.98 0.22 0.73
Banda 2 0.98 1.00 0.17 0.75
Banda 3 0.22 0.17 1.00 0.58
Banda 4 0.73 0.75 0.58 1.00
Figura 1.B. Ploteos de Dispersión entre bandas. Fuente: La investigación.
96
Anexo 2
Selección mejor árbol de decisión
Tabla 2.A. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión
con la librería rpart. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 418 0 31 0 0 0
Cuerpos de Agua 0 126 11 3 0 2
Vías 20 0 151 5 0 0
Pastos 1 0 0 270 0 0
Nubes 4 0 0 0 136 0
Bosques 0 0 0 11 0 251
Tabla 2.B. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión
con la librería tree sin podar el árbol. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 418 0 31 0 0 0
Cuerpos de Agua 0 126 14 0 0 1
Vías 20 0 156 0 0 0
Pastos 0 0 6 260 1 4
Nubes 0 0 0 0 140 0
Bosques 0 0 0 0 0 262
Tabla 2.C. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión
con la librería tree con una poda el árbol. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 418 0 31 0 0 0
Cuerpos de Agua 0 90 14 0 0 38
Vías 20 0 156 0 0 0
Pastos 0 0 6 264 1 0
Nubes 0 0 0 0 140 0
Bosques 0 0 0 10 0 252
Terreno
Predicción
Terreno
Predicción
Terreno
Predicción
97
Tabla 2.D. Resultado de la evaluación temática de las clasificaciones realizadas con árboles de
decisión. Fuente: La investigación.
Error de la
clasificación
(%)
Índice Kappa
(%)
Porcentaje
Correctamente
Clasificado -
PCC(%)
Intervalo de confianza de la
clasificación al 95%
Rango del
Intervalo de
Confianza
(%)
Límite
Inferior (%)
Límite
Superior (%)
Árboles de
Decisión
(rpart)
6,11 94,28 93,89 92,53 95,01 2,48
Árboles de
Decisión (tree)
sin poda
5,41 95,42 94,58 93,29 95,64 2,34
Árboles de
Decisión (tree)
con una poda
8,33 90,35 91,67 90,13 92,99 2,86
Figura 2.A. Árbol de decisión obtenido con la librería rpart. Fuente: La investigación.
Figura 2.B. Árbol de decisión obtenido con la librería tree sin poda. Fuente: La investigación.
Resultado
evaluado
Método
98
Figura 2.C. Árbol de decisión obtenido con la librería tree con poda. Fuente: La investigación.
Figura 2.D. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la
librería rpart. Fuente: La investigación.
99
Figura 2.E. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la
librería tree sin poda. Fuente: La investigación.
Figura 2.F. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la
librería tree con poda. Fuente: La investigación.
100
Anexo 3
Selección mejor RNA
Tabla 3.A. Matriz de confusión asociada a la clasificación realizada mediante RNA con la librería
nnet. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 422 2 19 0 0 0
Cuerpos de Agua 0 127 7 1 0 1
Vías 26 12 148 0 0 0
Pastos 0 0 1 270 0 0
Nubes 0 0 0 0 140 0
Bosques 0 1 1 0 0 261
Tabla 3.B. Matriz de confusión asociada a la clasificación realizada mediante RNAcon la librería
neuralnet. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 443 3 84 0 0 0
Cuerpos de Agua 0 126 3 0 0 0
Vías 6 12 89 11 0 4
Pastos 0 0 0 260 0 1
Nubes 0 0 0 0 140 0
Bosques 0 1 0 0 0 257
Tabla 3.C. Matriz de confusión asociada a la clasificación realizada mediante RNA con la librería
RSNNS. Fuente: La investigación.
Edificaciones Cuerpos de
Agua Vías Pastos Nubes Bosques
Edificaciones 382 2 20 0 0 0
Cuerpos de Agua 1 132 37 0 0 30
Vías 19 8 119 0 0 0
Pastos 13 0 0 271 114 0
Nubes 34 0 0 0 26 0
Bosques 0 0 0 0 0 232
Terreno
Predicción
Terreno
Predicción
Terreno
Predicción
101
Tabla 3.D. Resultado de la evaluación temática de las clasificaciones realizadas con RNA. Fuente: La
investigación.
Error de la
clasificación
(%)
Índice Kappa
(%)
Porcentaje
Correctamente
Clasificado -
PCC(%)
Intervalo de confianza de la
clasificación al 95%
Rango del
Intervalo de
Confianza
(%)
Límite
Inferior (%)
Límite
Superior (%)
RNA (nnet) 5,00 95,75 95,00 93,75 96,01 2,26
RNA
(neuralnet) 8,68 92,62 91,32 89,75 92,67 2,91
RNA (RSNNS) 19,31 81,92 80,69 78,58 82,65 4,08
Figura 3.A. Clasificación de la imagen obtenida mediante el algoritmo RNA usando la librería nnet.
Fuente: La investigación.
Figura 3.B. Clasificación de la imagen obtenida mediante el algoritmo RNA usando la librería
neuralnet. Fuente: La investigación.
Resultado
evaluado
Método
102
Figura 3.C. Estructura RNA usando la librería neuralnet. Fuente: La investigación.
Figura 3.D. Clasificación de la imagen obtenida mediante el algoritmo RNA usando la librería
RSNNS. Fuente: La investigación.
Figura 3.E. Ponderación del error medio cuadrático vs iteración mediante el algoritmo RNA usando
la librería RSNNS. Fuente: La investigación.
103
Anexo 4
Figura 4.A. Importancia de bandas en el método Bosques Aleatorios. Fuente: La investigación.
104
Anexo 5
Código R ######################################################## #ENRUTAMIENTO DIRECTORIO DE TRABAJO Y LLAMADO LIBRERÍAS# ######################################################## # La siguiente instrucción lo enruta a directorio en donde se encuentran los datos que se procesarán setwd("ruta origen de datos") getwd() # Se cargan las librerías necesarias para correr los algoritmos library(sp) library(grid) library(lattice) library(rgdal) library(raster) library(scatterplot3d) library(MASS) library(class) library(mda) # PARA OBTENER MATRIZ DE CONFUSIÓN library(vcd) # PARA OBTENER ÍNDICE KAPPA library(kernlab) # ALGORITMO SVM library(rpart)# ALGORITMO ARBOLES DE DECISIÓN library(tree)# ALGORITMO ARBOLES DE DECISIÓN library(foreign) library(maptools) library(randomForest) library(nnet) library(neuralnet) library(Rcpp) library(RSNNS) library(geoR) library(gstat) library(sgeostat) # Se carga la imagen que se procesará imagen<-stack("RECORTE.img") names(imagen)<-c("band1","band2","band3","band4") imagen #################################### #ESTADISTICAS UNIBANDA Y MULTIBANDA# #################################### # Desplegar imagen en combinación RGB-342 par(mfrow=c(1,1)) plotRGB(imagen, r=3, g=4, b=2) # Obteniendo histograma de la imagen hist(imagen) # Obteniendo estadísticas básicas resumen<-summary(imagen) resumen # Obteniendo matriz de covarianza covar<-cov(as.matrix(imagen)) covar # Obteniendo matriz de correlación corr<-cor(as.matrix(imagen)) corr # Gráfico combinado de histogramas y correlaciones pairs(imagen) ######################### #POLIGONOS DE LA MUESTRA# #########################
105
# Cargando shapefile que contiene polígonos de entrenamiento creados previamente en ArcGIS spterreno<-readOGR(dsn="ruta origen de datos",layer="Muestra_Completa") spterreno ############################### #ANALISIS SEPARABILIDAD VISUAL# ############################### #Se crea un raster del mismo tamaño de la imagen r<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) # Se sobre escribe el raster que se creó anteriormente con la información de clases definidas sobre los polígonos de entrenamiento tst <- rasterize(spterreno, r, field="Id_Cobertu") tst plot(tst) # Se une la información del raster anterior y de las 4 bandas de la imagen original y se crea una nueva imagen newimagen <- stack(imagen, tst) names(newimagen)<-c("band1","band2","band3","band4","clase") newimagen # Se crea un dataframe con la información de la nueva imagen nimagen <- as.data.frame(newimagen) # Se generan scatterplots bidimensionales entre todas las bandas fdata = factor(nimagen$clase) colores=c("yellow","blue","red","green","purple","chartreuse4") with(nimagen, plot(band1,band2,col=colores[fdata],pch=8)) legend("bottomright",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band1, band3, col=colores[fdata],pch=8)) legend("bottomright",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band1, band4, col=colores[fdata],pch=8)) legend("topleft",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band2, band3, col=colores[fdata],pch=8)) legend("bottomright",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band2, band4, col=colores[fdata],pch=8)) legend("topleft",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band3, band4, col=colores[fdata],pch=8)) legend("topleft",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) # Se generan scatterplots tridimensionales entre las bandas del visible scatterplot3d(nimagen$band1, nimagen$band2, nimagen$band3, color= nimagen$clase, pch=nimagen$clase) ######################################################### #OBTENCIÓN MUESTRA DE ENTRENAMIENTO (720 PUNTOS) CON MAS# ######################################################### # Se fija la semilla para iniciar el MAS set.seed(1) # Se seleccionan aleatoriamente 2160 puntos de los cuales 720 serán empleados como muestra de entrenamiento y los 1440 serán usados como muestra de validación p.sample <- spsample(spterreno,2160,"random") train <- sort(sample(1:2160, floor(720))) p.train <- p.sample[train,] # Distribución sobre la imagen de los 720 que se usarán como muestra de entrenamiento temp1<-over(p.train, spterreno) resp<-temp1$Id_Cobertu trainvals<-extract(imagen,p.train)
106
trainvals sp.train = SpatialPointsDataFrame(p.train, temp1) sp.train trainvals2 <- cbind (trainvals, resp) trainvals2 ####################################################### #OBTENCIÓN MUESTRA DE VALIDACION (1440 PUNTOS) CON MAS# ####################################################### # Se extraen los 1440 puntos restantes de la muestra de 2160 que serán usados como muestra de validación p.test <- p.sample[-train,] # Distribución sobre la imagen de los 14400 que se usarán como muestra de validación temp<- over(p.test, spterreno) response <- temp$Id_Cobertu testvals <- extract(imagen, p.test) sp.test = SpatialPointsDataFrame(p.test, temp) sp.test #################################################### #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO SVM# #################################################### ptm <- proc.time () svp <- ksvm(trainvals,resp, type="C-svc", kernel='rbf',kpar=list(sigma=2.5),C=50) # VECTORES DE SOPORTE alpha(svp) alphaindex(svp) b(svp) # PREDICCION SVM clasepred <- predict(svp,getValues(imagen)) prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- clasepred prediccion img_pred <-prediccion proc.time () - ptm predic_tiff<-writeRaster(img_pred,filename="clasificacion_svm.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf <- confusion(temp$clas, temp$Id_Cobertu) conf # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc <- 100 * sum(diag(conf))/nrow(temp) pcc # INDICE KAPPA k = Kappa(conf) k # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor<-pcc/100 Lim_sup<-(2*N*pccpor+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor)-(4*N*(pccpor^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf<-(2*N*pccpor+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor)-(4*N*(pccpor^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup Lim_inf Rango_IC<-Lim_sup-Lim_inf Rango_IC ####################### #DISTANCIA MAHALANOBIS# ####################### ptm <- proc.time () # Conversion de tipos de objetos train <- cbind(trainvals, resp) df.train <- as.data.frame(train) # Clase 1: EDIFICACION # Recuperacion de las 4 bandas para todos los pixeles de esta clase
107
edificacion <- df.train[df.train$resp==1,1:4] # Valor medio de clase 1 mean1 <- colMeans( edificacion ) mean1 # Matriz de covarianza de clase 1 var1<-var( edificacion ) var1 # Clase 2: CUERPOS DE AGUA cuerpos_agua <- df.train[df.train$resp==2,1:4] # Valor medio de clase 2 mean2 <- colMeans( cuerpos_agua ) mean2 # Matriz de covarianza clase 2 var2<-var( cuerpos_agua ) var2 # Clase 3: VIAS vias <- df.train[df.train$resp==3,1:4] # Valor medio de clase 3 mean3 <- colMeans( vias ) mean3 # Matriz de covarianza clase 3 var3<-var(vias) var3 # Clase 4: PASTOS pastos <- df.train[df.train$resp==4,1:4] # Valor medio de clase 4 mean4 <- colMeans( pastos ) mean4 # Matriz de covarianza clase 4 var4<-var( pastos ) var4 # Clase 5: NUBES nubes <- df.train[df.train$resp==5,1:4] # Valor medio de clase 5 mean5 <- colMeans( nubes ) mean5 # Matriz de covarianza clase 5 var5<-var( nubes ) var5 # Clase 6: BOSQUES bosque <- df.train[df.train$resp==6,1:4] # Valor medio de clase 6 mean6 <- colMeans( bosque ) mean6 # Matriz de covarianza clase 6 var6<-var( bosque ) var6 val <- getValues(imagen) dm=data.frame(dm1=mahalanobis(val, mean1, var1),dm2=mahalanobis(val, mean2, var2),dm3=mahalanobis(val, mean3, var3),dm4=mahalanobis(val, mean4, var4),dm5=mahalanobis(val, mean5, var5),dm6=mahalanobis(val, mean6, var6)) dm$clase=apply(dm, 1, which.min) pred_dm <- imagen[[1]] pred_dm[] <- as.numeric(dm[,7]) pred_dm[] proc.time () - ptm predic_tiff<-writeRaster(pred_dm,filename="clasificacion_mahalanobis.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_dm, p.test) # MATRIZ DE CONFUSION conf1 <- confusion(temp$Id_Cobertu, temp$clas) conf1 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc1 <- 100 * sum(diag(conf1))/nrow(temp) pcc1 #INDICE KAPPA k1 = Kappa(conf1) k1
108
# IINTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor1 <- pcc1/100 Lim_sup1<-(2*N*pccpor1+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor1)-(4*N*(pccpor1^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf1<-(2*N*pccpor1+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor1)-(4*N*(pccpor1^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup1 Lim_inf1 Rango_IC1<-Lim_sup1-Lim_inf1 Rango_IC1 ############################### #ARBOLES DE DECISION CON RPART# ############################### ptm <- proc.time () # CreaciÓn de un data frame con los datos requeridos train <- cbind(trainvals, resp) df.train <- as.data.frame(train) # Creación de un modelo de decision aumentando la complejidad del árbol # para el efecto se cambia el valor del parametro cp que, por default, es 0.01 # por default, se usa la métrica Gini rp2 <- rpart(resp ~ .,dat=df.train, method="class", control=rpart.control(cp=0.005)) # Detalles del árbol summary(rp2) # Ploteo del árbol de clasificación plot(rp2) text(rp2) dfval <- as.data.frame(getValues(imagen)) clasepred <- predict(rp2,dfval,type="class") clasepred pred_dt <- imagen[[1]] pred_dt[] <- as.numeric(clasepred) pred_dt[] proc.time () - ptm predic_tiff<-writeRaster(pred_dt,filename="clasificacion_arboles_rpart.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_dt, p.test) # MATRIZ DE CONFUSION conf2 <- confusion(temp$Id_Cobertu, temp$clas) conf2 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc2 <- 100 * sum(diag(conf2))/nrow(temp) pcc2 # INDICE KAPPA k2 = Kappa(conf2) k2 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor2 <- pcc2/100 Lim_sup2<-(2*N*pccpor2+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor2)-(4*N*(pccpor2^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf2<-(2*N*pccpor2+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor2)-(4*N*(pccpor2^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup2 Lim_inf2 Rango_IC2<-Lim_sup2-Lim_inf2 Rango_IC2 ####################################### #ARBOLES DE DECISION CON TREE SIN PODA# ####################################### tree1 <- tree(as.factor(resp) ~ .,data=df.train) # Descripción del árbol de clasificación tree1
109
# Ploteo árbol de clasificación plot(tree1) text(tree1) summary(tree1) cvtree1 <- cv.tree(tree1, FUN=prune.tree) plot(cvtree1) clasepred <- predict(tree1,dfval, type="class") clasepred pred_tree <- imagen[[1]] pred_tree[] <- as.numeric(clasepred) pred_tree[] predic_tiff<-writeRaster(pred_tree,filename="clasificacion_arboles_tree_sin_poda.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_tree, p.test) # MATRIZ DE CONFUSION conf3 <- confusion(temp$Id_Cobertu, temp$clas) conf3 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc3 <- 100 * sum(diag(conf3))/nrow(temp) pcc3 # INDICE KAPPA k3 = Kappa(conf3) k3 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor3 <- pcc3/100 Lim_sup3<-(2*N*pccpor3+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor3)-(4*N*(pccpor3^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf3<-(2*N*pccpor3+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor3)-(4*N*(pccpor3^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup3 Lim_inf3 Rango_IC3<-Lim_sup3-Lim_inf3 Rango_IC3 ########################################### #ARBOLES DE DECISION CON TREE CON UNA PODA# ########################################### poda1 <- prune.tree(tree1, best=6) poda1 summary(poda1) plot(poda1) text(poda1) clasepred <- predict(poda1,dfval, type="class") clasepred pred_tree_poda <- imagen[[1]] pred_tree_poda[] <- as.numeric(clasepred) pred_tree_poda[] predic_tiff<-writeRaster(pred_tree_poda,filename="clasificacion_arboles_tree_con_poda.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_tree_poda, p.test) # MATRIZ DE CONFUSION conf4 <- confusion(temp$Id_Cobertu, temp$clas) conf4 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc4 <- 100 * sum(diag(conf4))/nrow(temp) pcc4 # INDICE KAPPA k4 = Kappa(conf4) k4 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor4 <- pcc4/100
110
Lim_sup4<-(2*N*pccpor4+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor4)-(4*N*(pccpor4^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf4<-(2*N*pccpor4+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor4)-(4*N*(pccpor4^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup4 Lim_inf4 Rango_IC4<-Lim_sup4-Lim_inf4 Rango_IC4 #################### #BOSQUES ALEATORIOS# #################### ptm <- proc.time () myrf <- randomForest(as.factor (resp) ~ . , data=trainvals2, importance=TRUE, na.action=na.omit) varImpPlot(myrf) clasepred <- predict(myrf, getValues(imagen)) prediccion_rm<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion_rm[] <- clasepred proc.time () - ptm predic_tiff<-writeRaster(prediccion_rm,filename="clasificacion_randomforest.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion_rm, p.test) # MATRIZ DE CONFUSION conf5 <- confusion(temp$clas, temp$Id_Cobertu) conf5 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc5 <- 100 * sum(diag(conf5))/nrow(temp) pcc5 # INDICE KAPPA k5 = Kappa(conf5) k5 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor5<-pcc5/100 Lim_sup5<-(2*N*pccpor5+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor5)-(4*N*(pccpor5^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf5<-(2*N*pccpor5+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor5)-(4*N*(pccpor5^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup5 Lim_inf5 Rango_IC5<-Lim_sup5-Lim_inf5 Rango_IC5 ##################################################### #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO NNET# ##################################################### ptm <- proc.time () ideal1 <- class.ind(resp) set.seed(1) imagenANN <- nnet(trainvals2[,-5], ideal1, size=24,softmax=TRUE) clasepred <- predict(imagenANN, getValues(imagen), type="class") prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- clasepred prediccion img_pred <-prediccion proc.time () - ptm predic_tiff<-writeRaster(img_pred,filename="clasificacion_nnet.tif",format="GTiff",overwrite=TRUE) #plot.nnet(imagenANN,nid=T) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf6 <- confusion(temp$clas, temp$Id_Cobertu) conf6 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc6 <- 100 * sum(diag(conf6))/nrow(temp) pcc6
111
# INDICE KAPPA k6 = Kappa(conf6) k6 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor6<-pcc6/100 Lim_sup6<-(2*N*pccpor6+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor6)-(4*N*(pccpor6^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf6<-(2*N*pccpor6+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor6)-(4*N*(pccpor6^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup6 Lim_inf6 Rango_IC6<-Lim_sup6-Lim_inf6 Rango_IC6 ########################################################## #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO NEURALNET# ########################################################## ptm <- proc.time () edificaciones<-temp1$Id_Cobertu == '1' c_agua<-temp1$Id_Cobertu == '2' vias<-temp1$Id_Cobertu == '3' pastos<-temp1$Id_Cobertu == '4' nubes<-temp1$Id_Cobertu == '5' bosques<-temp1$Id_Cobertu == '6' nnet_trainvals2<-trainvals2 nnet_trainvals2 <- cbind(nnet_trainvals2,edificaciones) nnet_trainvals2 <- cbind(nnet_trainvals2, c_agua) nnet_trainvals2 <- cbind(nnet_trainvals2, vias) nnet_trainvals2 <- cbind(nnet_trainvals2, pastos) nnet_trainvals2 <- cbind(nnet_trainvals2, nubes) nnet_trainvals2 <- cbind(nnet_trainvals2, bosques) datannet_trainvals2<-as.data.frame(nnet_trainvals2) set.seed(1) #imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4,data=datannet_trainvals2,hidden=0,linear.output=FALSE,algorithm="backprop",learningrate=0.01) #imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4,data=datannet_trainvals2, hidden=0,rep=1, err.fct="ce", linear.output=FALSE) imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4, data=datannet_trainvals2, hidden = 0, threshold = 0.01, stepmax = 1e+05, rep = 1, startweights = NULL, learningrate.limit = NULL, learningrate.factor = list(minus = 0.5, plus = 1.2), learningrate=NULL, lifesign = "none", lifesign.step = 1000, algorithm = "rprop+", err.fct = "ce", act.fct = "logistic", linear.output = FALSE, exclude = NULL, constant.weights = NULL, likelihood = FALSE) #imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4,data=datannet_trainvals2,hidden=0,algorithm="backprop",err.fct="ce", act.fct="tanh",learningrate=0.01) plot(imagenNEURAL) clasepred <- compute(imagenNEURAL, getValues(imagen))$net.result maxidx <- function(arr) { return(which(arr == max(arr))) } idx1 <- apply(clasepred, c(1), maxidx) prediction <- c('edificaciones', 'c_agua', 'vias', 'pastos', 'nubes', 'bosques')[idx1] prediction[prediction == "edificaciones"] <- '1' prediction[prediction == "c_agua"] <- '2' prediction[prediction == "vias"] <- '3' prediction[prediction == "pastos"] <- '4' prediction[prediction == "nubes"] <- '5' prediction[prediction == "bosques"] <- '6' as.numeric(prediction)
112
prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- prediction prediccion img_pred <-prediccion proc.time () - ptm predic_tiff<-writeRaster(img_pred,filename="clasificacion_neuralnet.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf7 <- confusion(temp$clas, temp$Id_Cobertu) conf7 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc7 <- 100 * sum(diag(conf7))/nrow(temp) pcc7 # INDICE KAPPA k7 = Kappa(conf7) k7 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor7<-pcc7/100 Lim_sup7<-(2*N*pccpor7+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor7)-(4*N*(pccpor7^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf7<-(2*N*pccpor7+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor7)-(4*N*(pccpor7^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup7 Lim_inf7 Rango_IC7<-Lim_sup7-Lim_inf7 Rango_IC7 ###################################################### #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO RSNNS# ###################################################### trainDecTargets <- decodeClassLabels(resp) med_b1<-sum(trainvals[,1])/length(trainvals[,1]) med_b2<-sum(trainvals[,2])/length(trainvals[,2]) med_b3<-sum(trainvals[,3])/length(trainvals[,3]) med_b4<-sum(trainvals[,4])/length(trainvals[,4]) desv_b1<-sum(abs(trainvals[,1]-med_b1))/length(trainvals[,1]) desv_b2<-sum(abs(trainvals[,2]-med_b2))/length(trainvals[,2]) desv_b3<-sum(abs(trainvals[,3]-med_b3))/length(trainvals[,3]) desv_b4<-sum(abs(trainvals[,4]-med_b4))/length(trainvals[,4]) norm_b1<-(trainvals[,1]-med_b1)/desv_b1 norm_b2<-(trainvals[,2]-med_b2)/desv_b2 norm_b3<-(trainvals[,3]-med_b3)/desv_b3 norm_b4<-(trainvals[,4]-med_b4)/desv_b4 norm_total<-cbind(norm_b1, norm_b2, norm_b3, norm_b4) med_imagen_b1<-sum(getValues(imagen)[,1])/length(getValues(imagen)[,1]) med_imagen_b2<-sum(getValues(imagen)[,2])/length(getValues(imagen)[,2]) med_imagen_b3<-sum(getValues(imagen)[,3])/length(getValues(imagen)[,3]) med_imagen_b4<-sum(getValues(imagen)[,4])/length(getValues(imagen)[,4]) desv_imagen_b1<-sum(abs(getValues(imagen)[,1]-med_imagen_b1))/length(getValues(imagen)[,1]) desv_imagen_b2<-sum(abs(getValues(imagen)[,2]-med_imagen_b2))/length(getValues(imagen)[,2]) desv_imagen_b3<-sum(abs(getValues(imagen)[,3]-med_imagen_b3))/length(getValues(imagen)[,3]) desv_imagen_b4<-sum(abs(getValues(imagen)[,4]-med_imagen_b4))/length(getValues(imagen)[,4]) norm_imagen_b1<-(getValues(imagen)[,1]-med_imagen_b1)/desv_imagen_b1 norm_imagen_b2<-(getValues(imagen)[,2]-med_imagen_b2)/desv_imagen_b2 norm_imagen_b3<-(getValues(imagen)[,3]-med_imagen_b3)/desv_imagen_b3 norm_imagen_b4<-(getValues(imagen)[,4]-med_imagen_b4)/desv_imagen_b4 norm_imagen_total<-cbind(norm_imagen_b1, norm_imagen_b2, norm_imagen_b3, norm_imagen_b4)
113
set.seed(1) modelRSNNS <- mlp(x=norm_total, #input data for training y=trainDecTargets) #output data (targets) for training #size = 3, #number of neurons in the hidden layer #learnFunc="Std_Backpropagation", #type of learning #learnFuncParams=c(0.1),#paramenters of the learning function (eta) #maxit = 5) #maximum number of iterations #inputsTest = testvals, #input data for testing #targetsTest = testDecTargets)#output data (targets) for testing ptm <- proc.time () predictionsmlp <- predict(modelRSNNS, norm_imagen_total) proc.time () - ptm predictionmlpclass <- apply(predictionsmlp, 1, which.max) plotIterativeError(modelRSNNS) prediccionRSNNS<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccionRSNNS[1:627295] <-predictionmlpclass prediccionRSNNS img_pred <-prediccionRSNNS predic_tiff<-writeRaster(img_pred,filename="clasificacion_RSNNS.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccionRSNNS, p.test) # MATRIZ DE CONFUSION conf8 <- confusion(temp$clas, temp$Id_Cobertu) conf8 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc8 <- 100 * sum(diag(conf8))/nrow(temp) pcc8 # INDICE KAPPA k8 = Kappa(conf8) k8 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor8<-pcc8/100 Lim_sup8<-(2*N*pccpor8+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor8)-(4*N*(pccpor8^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf8<-(2*N*pccpor8+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor8)-(4*N*(pccpor8^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup8 Lim_inf8 Rango_IC8<-Lim_sup8-Lim_inf8 Rango_IC8 ########################## ###REGRESSION KRIGING##### ########################## ptm <- proc.time () imagen.grid <- as(imagen, 'SpatialGridDataFrame') imagen.df <- as.data.frame(imagen.grid) coordinates(imagen.df) <- ~s1 + s2 str(imagen.df) sp.train.df <- as.data.frame(sp.train) coordinates(sp.train.df) <- ~x + y trainvals2 <- as.data.frame (trainvals2) modelo<-multinom(resp~band1+band2+band3+band4, data=trainvals2, model=TRUE) proc.time () - ptm str(modelo) residuos <-as.data.frame(modelo$resid) names(residuos)<-c("resid1","resid2","resid3","resid4","resid5","resid6") sp.train.df.II <- sp.train.df apred <- cbind(imagen.df$s1,imagen.df$s2) apred <- as.data.frame(apred) names(apred)<-c("x","y") gridded(apred) <- ~x + y
114
######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 1##### ######################################################## residuos1<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid1)) residuos1.geoR <- as.geodata(residuos1, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid1) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos1$V3) n.q <- (residuos1$V3-mean(residuos1$V3))/sd(residuos1$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos1) <- c("x", "y", "p") P.L.point <- point(residuos1) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza Clase 1 (Edificaciones)",xlab="Distancia", ylab="Semivarianza", type="l") detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones dir.hor <- seq(0, 0, length.out=50) dir.ver <- seq(0, 0, length.out=50) id <- seq (length.out=50) id <- rep("var1",50) y <- data.frame (P.L.v$n, P.L.v$bins,P.L.v$classic,dir.hor,dir.ver,id) names(y) <- c("np", "dist", "gamma", "dir.hor","dir.ver","id") class(y) <- c("variogram","gstatVariogram","data.frame") ##ESFERICO Sph.ml <- fit.variogra m(y, vgm(0.03, "Sph", 2000 ),fit.method = 2) # metodo 2 MV Sph.reml <- fit.variogram.reml (p~1, ~x+y, residuos1, model = vgm(0.03, "Sph",2000 )) # metodo MVR Sph.ols <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 6) # metodo 6 MCO Sph.wls <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 7) # metodo 7 MCP print(list(Sph.ml,Sph.reml,Sph.ols, Sph.wls)) dist.s <- P.L.v$bins Sph.ML <- variogramLine(vgm(0.03478942538, "Sph", 686.9064231,0), min=0, dist_vector=dist.s) Sph.RML <- variogramLine(vgm(0.287275471, "Sph", 2000,0), min=0, dist_vector=dist.s) Sph.WLS <- variogramLine(vgm(0.03846539924, "Sph", 1523.391824,0), min=0, dist_vector=dist.s) Sph.OLS <- variogramLine(vgm(0.02934907653, "Sph", 512.6882407,0), min=0, dist_vector=dist.s) resi.Sph.ML <- sum((P.L.v$classic-Sph.ML$gamma)^2)/50 resi.Sph.RML <- sum((P.L.v$classic-Sph.RML$gamma)^2)/50 resi.Sph.OLS <- sum((P.L.v$classic-Sph.OLS$gamma)^2)/50 resi.Sph.WLS <- sum((P.L.v$classic-Sph.WLS$gamma)^2)/50 print(data.frame(resi.Sph.ML,resi.Sph.RML,resi.Sph.OLS,resi.Sph.WLS)) plot(P.L.v$bins,P.L.v$classic,lty=2,pch=1,lwd=2, bg="yellow",type = "p", ylim=c(0,0.06), col =1,font.main=3,main = ("AJUSTE DE MODELO ESFERICO CLASE 1 (EDIFICACIONES)"),xlab="Distancia", ylab="Semivarianza") lines ( Sph.ML, col =2,lty=6,lwd=2) lines ( Sph.RML, col =3,lty=6,lwd=2) lines ( Sph.WLS, col =4,lty=6,lwd=2) lines ( Sph.OLS, col =5,lty=6,lwd=2) legend ("bottomright", legend = c("ML","RML","MCP","MCO"), lwd=2,lty = 6, col=2:5)
115
#### KRIGING SIMPLE coordinates(residuos1) <- ~x + y ks.resd1 <- krige(p~1, residuos1, apred, vgm(0.03846539924, "Sph", 1523.391824,0), nmax = 5, beta = 0) spplot(ks.resd1["var1.pred"], main = " Predicciones residuos clase 1 (Edificaciones) - kriging simple ") spplot(ks.resd1["var1.var"], main = "Varianzas residuos clase 1 (Edificaciones)- kriging simple ") ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 2##### ######################################################## residuos2<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid2)) residuos2.geoR <- as.geodata(residuos2, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid2) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos2$V3) n.q <- (residuos2$V3-mean(residuos2$V3))/sd(residuos2$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos2) <- c("x", "y", "p") P.L.point <- point(residuos2) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 2 (Cuerpos de agua)",xlab="Distancia", ylab="Semivarianza", type="l") detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones dir.hor <- seq(0, 0, length.out=50) dir.ver <- seq(0, 0, length.out=50) id <- seq (length.out=50) id <- rep("var1",50) y <- data.frame (P.L.v$n, P.L.v$bins,P.L.v$classic,dir.hor,dir.ver,id) names(y) <- c("np", "dist", "gamma", "dir.hor","dir.ver","id") class(y) <- c("variogram","gstatVariogram","data.frame") ##ESFERICO Sph.ml <- fit.variogra m(y, vgm(0.03, "Sph", 2000 ),fit.method = 2) # metodo 2 MV Sph.reml <- fit.variogram.reml (p~1, ~x+y, residuos2, model = vgm(0.03, "Sph",2000 )) # metodo MVR Sph.ols <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 6) # metodo 6 MCO Sph.wls <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 7) # metodo 7 MCP print(list(Sph.ml,Sph.reml,Sph.ols, Sph.wls)) dist.s <- P.L.v$bins #Sph.ML <- variogramLine(vgm(0.03252535161, "Sph", 906.0954905,0), min=0, dist_vector=dist.s) #Sph.RML <- variogramLine(vgm(0.04853004553, "Sph", 2000,0), min=0, dist_vector=dist.s) #Sph.WLS <- variogramLine(vgm(0.03186043207, "Sph", 673.5647533,0), min=0, dist_vector=dist.s) #Sph.OLS <- variogramLine(vgm(0.03153611357, "Sph", 885.9881405,0), min=0, dist_vector=dist.s)
116
resi.Sph.ML <- sum((P.L.v$classic-Sph.ML$gamma)^2)/50 resi.Sph.RML <- sum((P.L.v$classic-Sph.RML$gamma)^2)/50 resi.Sph.OLS <- sum((P.L.v$classic-Sph.OLS$gamma)^2)/50 resi.Sph.WLS <- sum((P.L.v$classic-Sph.WLS$gamma)^2)/50 print(data.frame(resi.Sph.ML,resi.Sph.RML,resi.Sph.OLS,resi.Sph.WLS)) plot(P.L.v$bins,P.L.v$classic,lty=2,pch=1,lwd=2, bg="yellow",type = "p", ylim=c(0,0.06), col =1,font.main=3,main = ("AJUSTE DE MODELO ESFERICO CLASE 2 (CUERPOS DE AGUA)"),xlab="Distancia", ylab="Semivarianza") lines ( Sph.ML, col =2,lty=6,lwd=2) lines ( Sph.RML, col =3,lty=6,lwd=2) lines ( Sph.WLS, col =4,lty=6,lwd=2) lines ( Sph.OLS, col =5,lty=6,lwd=2) legend ("bottomright", legend = c("ML","RML","MCP","MCO"), lwd=2,lty = 6, col=2:5) #### KRIGING SIMPLE coordinates(residuos2) <- ~x + y ks.resd2 <- krige(p~1, residuos2, apred, vgm(0.03186043207, "Sph", 673.5647533), nmax=5, beta = 0) spplot(ks.resd2["var1.pred"], main = "Predicciones residuos clase 2 (Cuerpos de agua) - kriging simple") spplot(ks.resd2["var1.var"], main = "Varianzas residuos clase 2 (Cuerpos de agua) - kriging simple") ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 3##### ######################################################## residuos3<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid3)) residuos3.geoR <- as.geodata(residuos3, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid3) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos3$V3) n.q <- (residuos3$V3-mean(residuos3$V3))/sd(residuos3$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos3) <- c("x", "y", "p") P.L.point <- point(residuos3) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 3 (Vías)",xlab="Distancia", ylab="Semivarianza", type="l") detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones dir.hor <- seq(0, 0, length.out=50) dir.ver <- seq(0, 0, length.out=50) id <- seq (length.out=50) id <- rep("var1",50) y <- data.frame (P.L.v$n, P.L.v$bins,P.L.v$classic,dir.hor,dir.ver,id) names(y) <- c("np", "dist", "gamma", "dir.hor","dir.ver","id") class(y) <- c("variogram","gstatVariogram","data.frame") ##ESFERICO Sph.ml <- fit.variogra m(y, vgm(0.03, "Sph", 2000 ),fit.method = 2) # metodo 2 MV Sph.reml <- fit.variogram.reml (p~1, ~x+y, residuos3, model = vgm(0.03, "Sph",2000 )) # metodo MVR
117
Sph.ols <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 6) # metodo 6 MCO Sph.wls <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 7) # metodo 7 MCP print(list(Sph.ml,Sph.reml,Sph.ols, Sph.wls)) dist.s <- P.L.v$bins Sph.ML <- variogramLine(vgm(0.06486495189, "Sph", 811.1736869,0), min=0, dist_vector=dist.s) Sph.RML <- variogramLine(vgm(0.2913801768 , "Sph", 2000,0), min=0, dist_vector=dist.s) Sph.WLS <- variogramLine(vgm(0.06478527158, "Sph", 803.7201024,0), min=0, dist_vector=dist.s) Sph.OLS <- variogramLine(vgm(0.0627748535, "Sph", 780.912787,0), min=0, dist_vector=dist.s) resi.Sph.ML <- sum((P.L.v$classic-Sph.ML$gamma)^2)/50 resi.Sph.RML <- sum((P.L.v$classic-Sph.RML$gamma)^2)/50 resi.Sph.OLS <- sum((P.L.v$classic-Sph.OLS$gamma)^2)/50 resi.Sph.WLS <- sum((P.L.v$classic-Sph.WLS$gamma)^2)/50 print(data.frame(resi.Sph.ML,resi.Sph.RML,resi.Sph.OLS,resi.Sph.WLS)) plot(P.L.v$bins,P.L.v$classic,lty=2,pch=1,lwd=2, bg="yellow",type = "p", ylim=c(0,0.08), col =1,font.main=3,main = ("AJUSTE DE MODELO ESFERICO CLASE 3 (VÍAS)"),xlab="Distancia", ylab="Semivarianza") lines ( Sph.ML, col =2,lty=6,lwd=2) lines ( Sph.RML, col =3,lt y=6,lwd=2) lines ( Sph.WLS, col =4,lty=6,lwd=2) lines ( Sph.OLS, col =5,lty=6,lwd=2) legend ("bottomright", legend = c("ML","RML","MCP","MCO"), lwd=2,lty = 6, col=2:5) #### KRIGING SIMPLE coordinates(residuos3) <- ~x + y ks.resd3 <- krige(p~1, residuos3, apred, vgm(0.06478527158, "Sph", 803.7201024), nmax=5, beta = 0) spplot(ks.resd3["var1.pred"], main = "predicciones kriging simple") spplot(ks.resd3["var1.var"], main = "varianzas kriging simple") ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 4##### ######################################################## residuos4<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid4)) residuos4.geoR <- as.geodata(residuos4, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid4) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos4$V3) n.q <- (residuos4$V3-mean(residuos4$V3))/sd(residuos4$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos4) <- c("x", "y", "p") P.L.point <- point(residuos4) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 4 (Pastos)",xlab="Distancia", ylab="Semivarianza", type="l") legend(locator(1), c("Clásico"), col=c(1), lty=c(1)) detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones ########################################################
118
###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 5##### ######################################################## residuos5<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid5)) residuos5.geoR <- as.geodata(residuos5, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid5) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos5$V3) n.q <- (residuos5$V3-mean(residuos5$V3))/sd(residuos5$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos5) <- c("x", "y", "p") P.L.point <- point(residuos5) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 5 (Nubes)",xlab="Distancia", ylab="Semivarianza", type="l") legend(locator(1), c("Clásico"), col=c(1), lty=c(1)) detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 6##### ######################################################## residuos6<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid6)) residuos6.geoR <- as.geodata(residuos6, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid6) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos6$V3) n.q <- (residuos6$V3-mean(residuos6$V3))/sd(residuos6$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos6) <- c("x", "y", "p") P.L.point <- point(residuos6) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 6 (Bosques)",xlab="Distancia", ylab="Semivarianza", type="l")
119
legend(locator(1), c("Clásico"), col=c(1), lty=c(1)) detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones zkp <- predict(modelo, newdata = imagen.df, type = "probs") zkp.class <- predict(modelo, newdata = imagen.df) zkp.df <- as.data.frame(zkp) names(zkp.df)<-c("predict1","predict2","predict3","predict4","predict5","predict6") prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- zkp.class prediccion img_pred <-prediccion predic_tiff<-writeRaster(img_pred,filename="clasificacion_multinom.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf9 <- confusion(temp$clas, temp$Id_Cobertu) conf9 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc9 <- 100 * sum(diag(conf9))/nrow(temp) pcc9 # INDICE KAPPA k9 = Kappa(conf9) k9 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor9<-pcc9/100 Lim_sup9<-(2*N*pccpor9+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor9)-(4*N*(pccpor9^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf9<-(2*N*pccpor9+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor9)-(4*N*(pccpor9^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup9 Lim_inf9 Rango_IC9<-Lim_sup9-Lim_inf9 Rango_IC9 class1.pred <- zkp.df$predict1+ks.resd1$var1.pred class2.pred <- zkp.df$predict2+ks.resd2$var1.pred class3.pred <- zkp.df$predict3+ks.resd3$var1.pred class4.pred <- zkp.df$predict4 class5.pred <- zkp.df$predict5 class6.pred <- zkp.df$predict6 cat.pred <- as.data.frame(cbind(class1.pred, class2.pred, class3.pred, class4.pred, class5.pred, class6.pred)) find.max.type <- function(v){ tmp <- v[which.max(v)] strsplit(names(tmp),"\\.")[[1]][1] } cat.pred$est.use <- apply(cat.pred,1,find.max.type) # busca el máximo clase <- function(x) { if(x == "class1") y <- 1 if(x == "class2") y <- 2 if(x == "class3") y <- 3 if(x == "class4") y <- 4 if(x == "class5") y <- 5 if(x == "class6") y <- 6 return(y) }
120
cat.pred$est.use.num <- sapply(cat.pred$est.use,clase) prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- cat.pred$est.use.num prediccion img_pred <-prediccion predic_tiff<-writeRaster(img_pred,filename="clasificacion_regression_kriging.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf10 <- confusion(temp$clas, temp$Id_Cobertu) conf10 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc10 <- 100 * sum(diag(conf10))/nrow(temp) pcc10 # INDICE KAPPA k10 = Kappa(conf10) k10 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor10<-pcc10/100 Lim_sup10<-(2*N*pccpor10+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor10)-(4*N*(pccpor10^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf10<-(2*N*pccpor10+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor10)-(4*N*(pccpor10^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup10 Lim_inf10 Rango_IC10<-Lim_sup10-Lim_inf10 Rango_IC10