bibiana rocío rivera guerrero -...

Clasificación de cobertura del suelo sobre área urbana a partir

de imágenes satelitales de mediana resolución empleando

regresión-kriging: una comparación con otros métodos no

convencionales

TESIS DE GRADO PRESENTADA POR:

Bibiana Rocío Rivera Guerrero

PARA OPTAR AL TÍTULO DE MAGISTER EN CIENCIAS DE LA

INFORMACIÓN Y LAS COMUNICACIONES

UNIVERSIDAD DISTRITAL “FRANCISCO JOSÉ DE CALDAS”

DIRECTOR

Phd. Ing. Carlos Eduardo Melo Martínez

Facultad de Ingeniería

Universidad Distrital Francisco José de Caldas

Universidad Distrital Francisco José de Caldas

Facultad de Ingeniería

Maestría en Ciencias de la Información y las Comunicaciones

Bogotá, Mayo de 2016

Resumen

En este trabajo se propuso la clasificación de cobertura del suelo sobre área urbana a

partir de imágenes satelitales de mediana resolución empleando regresión-kriging. Para

evaluar el desempeño del método se realizó un trabajo de clasificación de imágenes

satelitales, que se comparó con otras clasificaciones obtenidas mediante los métodos

Máquinas de Soporte Vectorial, Distancia Mahalanobis, Árboles de Decisión, Redes

Neuronales Artificiales y Bosques Aleatorios. La clasificación de cobertura de suelo se

realizó a partir de una imagen satelital SPOT 5. El área de estudio corresponde a una

zona central del casco urbano de la ciudad de Bogotá, Colombia; la herramienta que se

empleó en el procesamiento de la imagen fue el software “R”. Dentro de los resultados

del trabajo se encuentran la implementación de una metodología para clasificar

imágenes satelitales usando regresión-kriging, el código desarrollado en “R” para

clasificar imágenes mediante los seis métodos mencionados, los seis mapas de

clasificación, las matrices de confusión, los intervalos de confianza y otros índices que

permiten evaluar la exactitud de las clasificaciones. En términos generales todos los

métodos mostraron un buen desempeño en la tarea de clasificación y se comprobó que

en el caso de clasificación de cobertura de suelo en área urbana resulta ser más efectivo

el método regresión-kriging que considera no solo las características espectrales de la

imagen sino también la estructura de correlación espacial existente entre los datos.

PALABRAS CLAVE: Clasificación Temática, Regresión-kriging,

Geoestadística, Imagen Satelital.

Abstract

In this paper the classification of land coverage on urban area from medium resolution

satellite images using regression-kriging was proposed. In order to evaluate the

performance of the regression-kriging method was made a classification of a satellite

image, it was compared with other classifications obtained by the Support Vector

Machines, Distance Mahalanobis, Decision Trees, Artificial Neural Networks methods

and Random Forests. The classification of land coverage was made on a SPOT 5

satellite image. The study area corresponds to a central area of the city of Bogota,

Colombia; the program selected to process the image was the software "R". Within the

results of work is implementing a methodology for classifying satellite images using

regression-kriging, the code developed in "R" to classify images by the six with the

above methods, six classifications maps, the confusion matrices, the confidence

intervals and other indexes to evaluate the accuracy of the classification. All methods

showed a good performance in the classification task and thus it was found that in the

case of the classification of land cover in urban areas is more effective the regresión-

kriging method that considers not only the spectral characteristics of the image also

the structure of spatial correlation existing between the data.

Keywords: Tematic Classification, Regression-kriging, Geostatistical,

Satellite Image.

Lista de Tablas

Tabla 1. Modelo Teóricos de Semivarianza. [23] .......................................................... 21

Tabla 2. Algunas funciones de activación más empleadas [52] .................................... 34

Tabla 3. Coeficientes modelo de regresión multinomial ............................................... 59

Tabla 4. Test de normalidad para residuos ................................................................. 60

Tabla 5. Parámetros obtenidos al ajustar los semivariogramas para la clase 1 -

Edificaciones. Fuente: La investigación........................................................................ 61

Tabla 6. Parámetros obtenidos al ajustar los semivariogramas para la clase 2 –

Cuerpos de Agua. Fuente: La investigación. ................................................................ 61

Tabla 7. Parámetros obtenidos al ajustar los semivariogramas para la clase 3 -

Vías. Fuente: La investigación. .................................................................................... 62

Tabla 8. Matriz de confusión asociada a la clasificación realizada mediante modelo

multinomial. Fuente: La investigación. ........................................................................ 65

Tabla 9. Matriz de confusión asociada a la clasificación realizada mediante

regresión-kriging. Fuente: La investigación. ................................................................. 65

Tabla 10. Matriz de confusión asociada a la clasificación realizada mediante SVM.

Fuente: La investigación. ............................................................................................. 69


Distancia Mahalanobis. Fuente: La investigación. ....................................................... 70


Árboles de Decisión con la librería rpart. Fuente: La investigación. ........................... 70

Tabla 13. Matriz de confusión asociada a la clasificación realizada mediante RNA

(nnet). Fuente: La investigación. ................................................................................. 70


Bosques Aleatorios. Fuente: La investigación. ............................................................. 70

Tabla 15. Resultado de la evaluación temática de las clasificaciones. Fuente: La

investigación. ................................................................................................................ 71

Lista de Figuras

Figura 1. Etapas del análisis geoestadístico[23] ........................................................... 10

Figura 2. Partes del Semivariograma. (a) Semivariograma acotado (b)

Semivariograma no acotado[30]. ................................................................................... 14

Figura 3. Representación Gráfica del Efecto Pepita[30] .............................................. 15

Figura 4. Red neuronal perceptrón multicapa de tres capas[2] .................................... 32

Figura 5. (a) La forma de la curva sigmoidal varía con el parámetro T. (b) La

ubicación de la función sigmoide ha cambiado después de que se suma o se resta

sesgo [2] ..................................................................................................................... 35

Figura 6. Ejemplo esquemático del concepto de regresión-kriging[59] ......................... 37

Figura 7. Un árbol de decisión general para seleccionar el modelo de predicción

espacial adecuada en base a los resultados de la estimación del modelo[59]. ............... 42

Figura 8. Dificultades para predecir los datos de clase punto (b) y (d), en

comparación con las variables cuantitativas (a) y (c), es que la clase-interpoladores

son típicamente más complejo y computacionalmente más tiempo[59]. ...................... 43

Figura 9. Metodología implementada para clasificar una imagen con regresión-

kriging. Fuente: La investigación. ................................................................................ 54

Figura 10. Recorte escena Spot 5 ciudad de Bogotá en composición RGB-342

identificando puntos representativos de la zona de estudio- Parque Metropolitano

Simón Bolívar (1), la Escuela Militar General Santander (2), una parte de campus

de la Universidad Nacional de Colombia (3), el estadio y coliseo el Campín (4), un

sector de los cerros orientales (5), UPZ San Miguel (6). Fuente: La investigación. .... 56

Figura 11. Identificación polígonos de entrenamiento sobre la zona de estudio –

Spot 5 ciudad de Bogotá en combinación RGB-324. Fuente: La investigación. .......... 57

Figura 12. Diagramas de dispersión de clases entre (a) banda 1 y banda 2, (b)

banda 1 y banda 3, (c) banda 1 y banda 4, (d) banda2 y banda 3, (e) banda 2 y

banda 4 y (f) banda 3 y banda 4. Fuente: La investigación. ....................................... 58

Figura 13. Histogramas de frecuencia para residuos (a) Clase 1 - Edificaciones, (b)

Clase 2 - Cuerpos de Agua, (c) Clase 3 - Vías, (d) Clase 4 - Pastos, (e) Clase 5 -

Nubes y (f) Clase 6 - Bosques Fuente: La investigación. ............................................. 59

Figura 14. Cálculo semivariograma muestral con estimador clásico por clase (a)

Clase 1 - Edificaciones, (b) Clase 2 - Cuerpos de Agua, (c) Clase 3 - Vías, (d) Clase

4 - Pastos, (e) Clase 5 - Nubes y (f) Clase 6 - Bosques Fuente: La investigación. ...... 61

Figura 15. Ajuste de modelo de semivarianza esférico clase (a) Clase 1 -

Edificaciones, (b) Clase 2 - Cuerpos de Agua, (c) Clase 3 - Vías. Fuente: La

investigación. ................................................................................................................ 62

Figura 16. Predicción de residuos y varianza de la predicción obtenida con kriging

simple (a) Predicción residuos Clase 1 - Edificaciones, (b) Varianza predicción

residuos Clase 1 - Edificaciones (c) Predicción residuos Clase 2 - Cuerpos de Agua,

(d) Varianza predicción residuos Clase 2 - Cuerpos de Agua, (e) Predicción

residuos Clase 3 -Vías y (f) Varianza predicción residuos Clase 3 - Vías. Fuente: La

investigación. ................................................................................................................ 63

Figura 17. Clasificación de la imagen obtenida mediante modelo multinomial.


Figura 18. Clasificación de la imagen obtenida mediante regresión-kriging. Fuente:

La investigación. .......................................................................................................... 64

Figura 19. Clasificación de la imagen obtenida mediante el algoritmo SVM. Fuente:

La investigación. .......................................................................................................... 66

Figura 20. Clasificación de la imagen obtenida mediante el algoritmo Distancia de

Mahalanobis. Fuente: La investigación. ....................................................................... 67

Figura 21. Clasificación de la imagen obtenida mediante el algoritmo Bosques

Aleatorios. Fuente: La investigación. ........................................................................... 67

Figura 22. Clasificación de la imagen obtenida mediante el algoritmo Redes

Neuronales Artificiales (nnet). Fuente: La investigación. ............................................ 67

Figura 23. Clasificación de la imagen obtenida mediante el algoritmo Arboles de

Decisión usando la librería rpart. Fuente: La investigación. ........................................ 68

Figura 24. Comparación visual de la clasificación obtenida mediante el algoritmo

Arboles de Decisión usando la librería tree (a) (c) y la librería rpart (b) (d).


Figura 25. Clasificación obtenida para el sector de los cerros orientales con los

métodos (a) SVM, (b) Distancia Mahalanobis, (c) Árboles de Decisión, (d) Bosques

Aleatorios, (e) RNA y (f) regresión-kriging. Fuente: La investigación. ....................... 73

Figura 26. Identificación zonas con problemas de clasificación realizada con los


Aleatorios, (e) RNA y (f) regresión-kriging, en el sector de la Esmeralda y Ciudad

Salitre. Fuente: La investigación. ................................................................................. 74

Figura 27. Identificación zonas con problemas de clasificación realizada con los


Aleatorios, (e) RNA y (f) regresión-kriging, en un tramo de la Av. El Dorado.


Figura 28. Identificación cuadrante Av. NQS, Calle 80, Av. Caracas, Calle 45 sobre

la clasificación realizada con los métodos (a) SVM, (b) Distancia Mahalanobis, (c)

Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging.


Lista de Abreviaturas

Significado Abreviatura

Aprendizaje computacional AC

Análisis exploratorio de datos AED

Análisis exploratorio de datos espaciales AEDE

Agencia nacional de hidrocarburos ANH

Red de resonancia adaptativa ART

Classification and regresion trees CART

Chi-square automatic interaction detector CHAID

Ciam, magenta, yellow, black CMYK

Dirección general marítima DIMAR

Departamento nacional de planeación DNP

Modelo lineal generalizado GLM

Alta resolución visible HRV

Matiz (hue), saturación (saturation), intensity (intensidad) HSI

Inteligencia artificial IA

Instituto de hidrología, meteorología y estudios ambientales IDEAM

Distancia inversa ponderada IDW

Instituto geográfico agustín codazzi IGAC

Instituto colombiano de geología y minería INGEOMINAS

Instituto de investigaciones marinas y costeras INVEMAR

Muestreo aleatorio simple MAS

Mínimos cuadrados generalizados MCG

Mínimos cuadrados ordinarios MCO

Mínimos cuadrados ponderados MCP

Mejor estimador lineal insesgado MELI

Máxima Verosimilitud ML

Multilayer perceptron MLP

Niveles digitales ND

Porcentaje correctamente clasificado PCC

Máxima Verosimilitud Restringida RML

Redes neuronales artificiales RNA

Instituto amazónico de investigaciones científicas SINCHI

Los mapas de características auto-organizado de kohonen SOM

Support vectorial machine SVM

Luminancia (luminance), en fase (in-phase), cuadratura (quadrature) YIQ

Agradecimientos

A mis padres por su apoyo incondicional, por su compañía y paciencia

A mi hermano por convertirse en un modelo de dedicación y disciplina

A mi director de tesis por acompañarme a lo largo mi vida académica

A todos los docentes que contribuyeron a lo largo de estos años a mi formación

profesional

Glosario

Aprendizaje Computacional: El aprendizaje computacional se refiere a las

técnicas, empleadas en computación, para crear programas que aprendan a realizar

una tarea de manera eficiente[1].

Árboles de Decisión: En los árboles de decisión el paso a través del árbol es lo

que explica la clasificación. Cada hoja contiene información sobre el número de

observaciones que caen en ella y la proporción para cada clase; la clase más densa

se selecciona como la clasificación para el nodo. Los árboles se pueden utilizar para

asignar puntajes a los datos, explorar datos, hacer clasificaciones y predicciones y

para comprender que variables son más importantes[2].

Bosques Aleatorios: se basan en el desarrollo de muchos árboles de clasificación,

donde para clasificar un nuevo objeto desde un vector de entrada, se ubica dicho

vector bajo cada uno de los árboles del bosque, posteriormente cada árbol genera

una clasificación, es decir cada árbol “vota” por una clase. Al final el bosque escoge

la clasificación teniendo en cuenta el árbol más votado sobre todos los del

bosque[3].

Datos espaciales: Un dato espacial puede definirse como la observación de una

variable asociada a una localización del espacio geográfico[4].

Estadística Espacial: Se puede definir como la reunión de un conjunto de

metodologías apropiadas para el análisis de datos que corresponden a la medición

de variables aleatorias en diversos sitios (puntos del espacio o agregaciones

espaciales) de una región. De manera más formal se puede decir que la estadística

espacial trata con el análisis de realizaciones de un proceso estocástico DxxZ :)(

, en el que representa una ubicación en el espacio euclidiano d-dimensional,

( ) es una variable aleatoria en la ubicación y varía sobre un conjunto de

índices D dR [5].

Estacionariedad: Propiedad de una variable regionalizada donde su función de

distribución conjunta es invariante respecto a cualquier translación del vector , o

lo que es lo mismo, la función de distribución del vector aleatorio ( )

[ ( ) ( ) ( )] es idéntica a la del vector ( ) [ ( ) (

) ( )] para cualquier . [5]

Estacionariedad Débil o Intrínseca: Cuando un fenómeno físico real tiene

varianza no finita se trabaja sólo con la hipótesis que pide que los incrementos

[ ( ) ( )] sean estacionarios, esto es: ( ) tiene esperanza finita y

constante para todo punto en el dominio, lo que implica que la esperanza de los

incrementos es cero. [ ( ) ( )] ; y para cualquier vector , la varianza

del incremento está definida y es una función única de la distancia [ ( )

( )] [ ( ) ( )] ( ). [5]

Estacionariedad Fuerte o de Segundo Orden: Sea { ( ) } una

variable regionalizada definida en un dominio contenido en (generalmente

una variable medida en la superficie de una región) se dice que ( ) es estacionario

de segundo orden si cumple: [ ( )] . El valor esperado

de la variable aleatoria es finito y constante para todo punto en el dominio; y

[ ( ) ( )] ( ) , para toda pareja { ( ) ( )} la covarianza

existe y es función única del vector de separación . [5]

Geoestadística: Área de la Estadística Espacial donde las ubicaciones S están

contenidas en un conjunto D continuo y son seleccionadas a juicio del investigador

(D fijo). E el investigador puede hacer selección de puntos del espacio a

conveniencia o puede seleccionar los sitios bajo algún esquema de muestreo

probabilístico[5].

Imágenes multiespectrales: Una imagen satelital es una matriz digital de

puntos capturada por un sensor montado a bordo de un satélite que orbita

alrededor de la tierra. A medida que el satélite avanza en su órbita, “barre” la

superficie con un conjunto de detectores que registran la energía reflejada. Las

multiespectrales sin imágenes que se captan mediante un sensor digital que mide la

reflectancia en muchas bandas. Por ejemplo, un conjunto de detectores puede

medir energía roja reflejada dentro de la parte visible del espectro mientras que

otro conjunto mide la energía del infrarrojo cercano[6].

Kriging: Métodos de interpolación geoestadística que tienen como columna

vertebral la estructura de correlación existente entre los datos[5].

Máquinas de Soporte Vectorial (SVM): son una técnica de clasificación de

aparición relativamente cercana y ha tomado mucha fuerza en años recientes; en

muchas aplicaciones, las SVM han mostrado tener gran desempeño, más que las

máquinas de aprendizaje tradicional como las redes neuronales y han sido

introducidas como herramientas poderosas para resolver problemas de

clasificación[7].

Mediana Resolución: La resolución de un instrumento de detección remota se

puede expresar en términos de su resolución espacial y radiométrica. Cuanto mayor

sea la resolución espacial más pequeños serán los objetos de tierra que se pueden

distinguir. La resolución espacial se relaciona con el campo de visión instantáneo

(IFOV) del sensor e indica el tamaño de la zona de la que el sensor recibe la

energía en el instante de tiempo dado [2]. Basado en la resolución espacial los

sistemas de sensores remotos o los datos obtenidos con estos pueden ser

categorizados en tres grupos: (i) Datos de baja resolución (>30 m), (ii) Datos de

mediana resolución (5 – 30 m) y (iii) Datos de alta resolución (<5 m)[8].

Redes Neuronales Artificiales (RNA): Se puede definir como modelos

matemáticos inspirados en sistemas biológicos, adaptados y simulados en

computadoras convencionales[9]. Una RNA es una estructura compuesta de un

número de unidades interconectadas (neuronas artificiales). Cada unidad posee una

característica de entrada/salida e implementa una computación local o función. La

salida de cualquier unidad está determinada por su característica de entrada/salida,

su interconexión con otras unidades y de sus entradas externas. Sin embargo la red

desarrolla usualmente una funcionalidad general a través de una o más formas de

entrenamiento[10].

Semivarianza: Es una función que define uno de los tres momentos de segundo

orden considerados en geoestadística para el conjunto de variables aleatorias Z(s) y

está dada por ( )

[ ( ) ( )] [11].

Contenido

Introducción ................................................................................................................... 2

1. Objetivos ........................................................................................................... 1

1.1. Objetivo General .......................................................................................................1

1.2. Objetivos Específicos .................................................................................................1

2. Hipótesis ........................................................................................................... 2

3. Marco Teórico ................................................................................................... 3

3.1. Conceptos básicos del análisis de datos geoestadísticos ............................................4

3.1.1. Referencia histórica .............................................................................................5

3.1.2. Etapas del análisis geoestadístico .......................................................................6

3.1.3. Métodos de interpolación geoestadísticos ......................................................... 16

3.2. Conceptos básicos de la clasificación de imágenes satelitales .................................. 22

3.2.1. Características básicas de las imágenes digitales .............................................. 22

3.2.2. Plataformas satelitales y sensores remotos ....................................................... 22

3.2.3. Clasificación de imágenes satelitales ................................................................. 23

3.2.4. Métodos convencionales y no convencionales para la clasificación de

imágenes ......................................................................................................................... 24

3.3. La regresión-kriging en la clasificación de imágenes satelitales ............................... 35

3.3.1. El mejor estimador lineal insesgado (MELI) para datos espaciales .................. 36

3.3.2. Kriging universal y kriging con deriva externa ................................................. 40

3.3.3. Predicción Espacial para variables categóricas ................................................. 43

4. Antecedentes ................................................................................................... 47

5. Metodología..................................................................................................... 53

5.1. Datos y AEDE ......................................................................................................... 55

5.2. Modelo de regresión multinomial ............................................................................. 58

5.3. Ajuste del semivariograma de los residuos .............................................................. 60

5.4. Método kriging sobre residuales .............................................................................. 62

6. Resultados ....................................................................................................... 64

7. Análisis de Resultados ..................................................................................... 72

8. Conclusiones .................................................................................................... 77

9. Recomendaciones y trabajos futuros ................................................................ 81

Referencias .................................................................................................................... 83

Anexos ......................................................................................................................... 94

Introducción

El acelerado desarrollo de medios tecnológicos para adquirir y almacenar grandes volúmenes

de datos espaciales ha generado la necesidad de diseñar herramientas y técnicas que permitan

extraer información confiable y útil a partir de esos datos, que pueda ser empleada para

estudios y análisis en diferentes áreas del conocimiento.

Las técnicas de análisis de imágenes digitales han tenido un desarrollo muy

importante en la última década. Su auge está en aumento debido, entre otras

cosas, a la creciente disponibilidad de imágenes ópticas y de micro-ondas de alta

resolución espacial y espectral.

Las técnicas de aprendizaje computacional (AC), empleadas para crear programas que

aprendan a realizar una tarea de manera eficiente, han marcado recientemente el camino

para recuperar grandes volúmenes de datos y extraer información. A pesar de lo anterior

persiste la necesidad de acudir a herramientas y técnicas cada vez más eficientes para el

análisis de datos en todas las áreas del conocimiento, pues no obstante la mayoría de

técnicas se centran en fundamentos comunes, estas deben ser específicas para cada una

de las disciplinas del saber.

El aprendizaje computacional abarca una serie de técnicas para predecir información, esa

predicción puede generar una estimación o una clasificación. La búsqueda y desarrollo de

métodos que brinden cada vez mejores resultados en las tareas de clasificación de

información espacial ha sido una preocupación y reto permanente de los investigadores.

Recientemente se han propuesto una serie de métodos no convencionales para la tarea de

predicción. Estos métodos han sido empleados en la estimación de información y también

han sido aplicados en problemas de clasificación, dentro de estos métodos se encuentran

las Máquinas de Soporte Vectorial (SVM) por sus siglas en inglés, los árboles de decisión,

los bosques aleatorios, las RNA, entre otros.

Existen métodos que se han desarrollado para estimar y clasificar información sin

considerar el componente espacial, pero por la naturaleza georreferenciada y

multidireccional de los datos geográficos, estos requieren un tratamiento especial. Los

algoritmos de AC han mostrado mejores resultados en el procesamiento y tratamiento de

datos, tanto geográficos como no geográficos, en contraste con otros métodos

convencionales como por ejemplo la máxima verosimilitud o la distancia Mahalanobis; no

obstante lo anterior todos estos métodos desconocen por completo el componente

espacial de los datos geográficos.

En la clasificación de cobertura de suelo a partir de imágenes satelitales el mayor número

de trabajos se han realizado sobre zonas rurales, no urbanizadas. En este sentido el

presente trabajo propone la regresión-kriging como una propuesta alternativa para mejorar

los resultados en la clasificación de cobertura de suelo en área urbana a partir de imágenes

satelitales de mediana resolución, pues dada la naturaleza georreferenciada y

multidireccional de los datos geográficos, se sugiere que una clasificación puede mostrar

mejores resultados si en ésta se involucran supuestos relacionados con la estructura de

correlación existente entre los datos muestreados de una variable específica.

Muchos de los análisis de tipo espacial que se realizan actualmente, gracias a la creciente

disponibilidad de datos geográficos, tienen que contrastarse con la literatura científica

existente, dado que la gran dimensión de las bases de datos y la multitud de formas de

obtenerlas dan lugar a un número de cuestiones que no siempre se resuelven

satisfactoriamente y requieren de un mayor esfuerzo de investigación[12, 13]. En la

mayoría de los casos, el tratamiento de las bases de datos espaciales no debe llevarse a

cabo directamente, tal como es proporcionada por los organismos o fuentes originales,

sino que exige un tratamiento que haga posible la obtención de una información lo más

precisa, depurada y operativa posible[4].

Cuando se habla de datos espaciales se hace referencia a la observación de una variable

asociada a una localización del espacio geográfico[4], por ejemplo en el caso de las

imágenes satelitales cuando se habla de los niveles digitales, se está haciendo referencia a

datos espaciales. Una característica particular de los datos geográficos es la correlación

que existe entre ellos "todo tiene que ver con todo, pero las cosas cercanas están más

relacionadas entre sí que las cosas lejanas"[14]; esta característica fundamental requiere

que a los datos geográficos se les dé un tratamiento especial.

En las tareas de clasificación de información espacial los algoritmos de AC (las RNA, las

SVM, método de máxima verosimilitud, etc) desconocen la importancia del componente

espacial y la estructura de correlación que existe entre estos datos espaciales, esta

omisión puede estar limitando el desempeño de los métodos y reduciendo el porcentaje

de información correctamente clasificada cuando se trata de datos distribuidos en el

espacio.

¿Emplear métodos geoestadísticos como la regresión-kriging, en el proceso de

clasificación de cobertura del suelo sobre imágenes satelitales de mediana resolución en

área urbana, arrojará mejores resultados en la evaluación de exactitud temática que los

obtenidos con métodos no convencionales?

1

1. Objetivos

A continuación se plantean los objetivos asociados al trabajo de clasificación de imágenes

satelitales propuesto.

1.1. Objetivo General

Aumentar los niveles de exactitud temática en la clasificación de cobertura de suelo a

partir de imágenes satelitales mediante la implementación de una metodología basada en

la regresión-kriging, con respecto a los niveles de exactitud temática obtenidos en la

clasificación realizada con métodos no convencionales.

1.2. Objetivos Específicos

1. Realizar una revisión de la teoría existente sobre regresión-kriging para abordar el

problema de clasificación de información.

2. Implementar una metodología para clasificar cobertura de suelo a partir de

imágenes satelitales, empleando la regresión-kriging.

3. Generar una clasificación de cobertura de suelo sobre una imagen satelital

multiespectral de mediana resolución en área urbana mediante la regresión-

kriging.

4. Evaluar el desempeño de la regresión-kriging versus el desempeño de cinco

métodos no convencionales empleados en la clasificación de imágenes satelitales:

(1) máquinas de soporte vectorial, (2) bosques aleatorios, (3) árboles de decisión,

(4) distancia Mahalanobis y (5) redes neuronales artificiales perceptrón multicapa.

2

2. Hipótesis

Emplear un método geoestadístico como la regresión-kriging en el proceso de clasificación

de imágenes satelitales mejorará los resultados de la evaluación en exactitud temática con

respecto a los obtenidos con métodos no convencionales (SVM, árboles de decisión,

distancia Mahalanobis, bosques aleatorios, RNA), si se tiene en cuenta que los métodos

geoestadísticos consideran el componente espacial de la información, en particular su

estructura de correlación, mientras que los otros métodos se basan solo en las características

espectrales de la imagen satelital; se espera que al emplear el método regresión-kriging en el

caso de estudio, donde se realizará cobertura de suelo a partir de una imagen satelital SPOT

5, el error de la clasificación se reduzca por lo menos un 1%, que el índice kappa aumente

0,3% y el rango del intervalo de confianza de la clasificación disminuya 0.25% 1, en contraste

con los resultados de exactitud temática obtenidos en las clasificaciones realizadas mediante los

otros métodos no convencionales ya mencionados.

1 Hace algunos años cuando apenas comenzaba a tomar fuerza el tema de clasificación de cobertura a partir de

imágenes satelitales, específicamente antes de la aparición de lo que se conoce como métodos no convencionales, era

usual que al realizar la evaluación de exactitud temática con un nuevo método de clasificación se superara al

anterior método propuesto en varios puntos porcentuales. Sin embargo en la actualidad los métodos han alcanzado

tal grado de refinamiento que el proponer uno nuevo que supere a los anteriores si quiera en un punto porcentual en

los indicadores de exactitud temática ya se constituye en un gran logro. Si se analiza desde otra persperctiva para

una imagen que cubra una extensión de terreno de 1000 hectáreas mejorar el porecentaje de información

correctamente clasificado en un 1% significa mejorar la clasificación sobre un área de 10 hectáreas.

3

3. Marco Teórico

Este trabajo propone la implementación de una metodología para aplicar la regresión-kriging

en la clasificación de cobertura de suelo a partir de imágenes satelitales y se presenta un

caso de estudio sobre una imagen satelital de mediana resolución2 que cubre un área urbana.

Se realizará un trabajo de clasificación de imágenes satelitales, la clasificación resultante de

aplicar la regresión-kriging se comparará con otras clasificaciones obtenidas mediante los

métodos SVM, Distancia Mahalanobis, Árboles de Decisión, RNA y Bosques Aleatorios.

En este sentido es posible identificar cuatro macro-temas que serán fundamentales en el

desarrollo del trabajo: (1) La naturaleza de los datos geográficos o espaciales, (2) la

definición de la estructura de correlación que existe entre dichos datos, (3) los

fundamentos teóricos de la regresión-kriging y los métodos geoestadísticos y (4) la

comparación del desempeño del método propuesto en contraste con los métodos de AC

existentes para la clasificación de una imagen satelital.

El marco teórico se estructurará entonces de la siguiente manera:

En la sección 3.1 se presentan los conceptos básicos del análisis de datos

geoestadístico, enfatizando en antecedentes histórico, análisis exploratorio y

estructural de datos, variables estacionarias y no estacionarias, modelado del

semivariograma, semivariogramas teóricos y los métodos de interpolación

geoestadísticos clásicos.

La sección 3.2 contiene toda la teoría de clasificación de imágenes satelitales,

incluyendo las características básicas de las imágenes digitales, plataformas

satelitales y sensores remotos, métodos convencionales y no convencionales

empleados en la clasificación de imágenes satelitales.

La sección 3.3 incluye la revisión de la regresión-kriging y algunas consideraciones

relacionadas con kriging universal y kriging con deriva externa.

2 Basado en la resolución espacial los sistemas de sensores remotos o los datos obtenidos con estos pueden

ser categorizados en tres grupos: (i) Datos de baja resolución (>30 m), (ii) Datos de mediana resolución (5

– 30 m) y (iii) Datos de alta resolución (<5 m)

4

3.1. Conceptos básicos del análisis de datos geoestadísticos

Un dato espacial puede definirse como la observación de una variable asociada a una

localización del espacio geográfico. También puede ser definido como un elemento u objeto

que se encuentra ubicado sobre o bajo la superficie terrestre y que cuenta con características

o propiedades como la posición absoluta, posición relativa, forma o geometría y atributos[4].

En particular los datos espaciales se caracterizan por su naturaleza georreferenciada, es decir,

que su posición relativa o absoluta sobre el espacio contiene información valiosa para

interpretar las relaciones consideradas. Por otra parte el espacio geográfico se caracteriza por

la multidireccionalidad de las relaciones que sobre él se establecen y la multidimensionalidad:

efectivamente, en un área geográfica no es posible distinguir entre pasado, presente, futuro,

sino que todo es presente, todo es pasado y todo es futuro[4].

En concordancia con la primera ley de la geografía, según la cual "todo tiene que ver con

todo, pero las cosas cercanas están más relacionadas entre sí que las cosas lejanas"[14],

el efecto dependencia o autocorrelación espacial es inherente a los datos espaciales y

consiste en la falta de independencia que se produce a menudo entre las observaciones de

datos de corte transversal[4]. La dependencia espacial podría ser definida como la existencia

de una relación funcional entre lo que ocurre en un punto determinado del espacio y lo que

ocurre en otro lugar[15]. Es decir, una variable se encontrará espacialmente

autocorrelacionada cuando los valores observados en un lugar determinado dependen, no

sólo de ciertos factores externos (otras variables), sino de los valores observados en

regiones vecinas[4].

La estadística espacial se puede definir como la reunión de un conjunto de metodologías

apropiadas para el análisis de datos que corresponden a la medición de variables

aleatorias en diversos sitios (puntos del espacio o agregaciones espaciales) de una región.

De manera más formal se puede decir que la estadística espacial trata con el análisis de

realizaciones de un proceso estocástico DssZ :)( , en el que s dR representa una

ubicación en el espacio euclidiano d-dimensional, Z(s) es una variable aleatoria en la

ubicación s y s varía sobre un conjunto de índices D dR . La geoestadística es el área de

la estadística espacial donde las ubicaciones s están contenidas en un subconjunto D fijo

continuo de dR con volumen d-dimensional positivo. En otras palabras el índice espacial

s varia continuamente a lo largo de la región D[16].

5

Kriging es un método que minimiza el error medio cuadrático de la predicción espacial que

(generalmente) depende de las propiedades de segundo orden del proceso ( ). Matheron

denominó a estos métodos de predicción lineal óptima espacial, posteriormente D. G. Krige,

un ingeniero de minas de Sudáfrica, quien en la década de los 50’s, desarrolló métodos

empíricos para determinar las distribuciones verdaderas del grado de minerales a partir de

distribuciones basadas en muestreos del grado de minerales. Sin embargo, la formulación de

predicción óptima lineal espacial no vino de la obra de Krige. Las contribuciones de Wold,

Kolmogorov, y Wiener contienen ecuaciones de predicción lineal óptimas que reflejan la idea

de que a las observaciones más cerca del punto de predicción (para ellos, más cerca en el

tiempo) se les debe dar más peso en el predictor[16].

Al mismo tiempo que la geoestadística fue desarrollando en ingeniería de minas por G.

Matheron en Francia, las mismas ideas fueron desarrolladas en meteorología por L. S.

Gandin en la Unión Soviética. La contribución original (y simultánea) de estos autores fue

poner predicción lineal óptima (en términos de variogramas) en un entorno espacial. El

nombre que dio Gandin a su enfoque era análisis objetivo, y utilizó la terminología de

interpolación óptima en lugar de kriging[16].

Desde su aparición hasta el día de hoy los métodos geoestadísticos kriging han sido

empleados en la predicción de información espacial. Los kriging son métodos de interpolación

por excelencia y se han aplicado con éxito en diversas áreas del conocimiento como la

minería, la hidrología, la física del suelo, las ciencias de la tierra y más recientemente al

monitoreo ambiental y al procesamiento de imágenes de satélite[5].

3.1.1. Referencia histórica

Entre los primeros trabajos que realizaron un manejo de los métodos que hoy se

enmarcan en el concepto de la geoestadística están los de Sichel[17, 18], quien observó la

naturaleza asimétrica de la distribución del contenido de oro en las minas surafricanas, la

equiparó a una distribución de probabilidad lognormal y desarrolló las fórmulas básicas

para esta distribución; esto permitió una primera estimación de las reservas, pero bajo el

supuesto de que las mediciones eran independientes, en clara contradicción con la

experiencia de que existen zonas más ricas que otras. Posteriormente Krige[19] realiza

una primera aproximación a la solución del problema que se había quedado planteado

con los trabajos de Sichel. Él propuso una variante del método de medias móviles, el cual

puede considerarse como el equivalente al kriging simple[5].

6

En los años 60, Matheron acuñó el término de geoestadística. Reconocido como el padre

de esta disciplina, Matheron[20] en la escuela de minas de París, formalizó, generalizó

matemáticamente y dio solución al problema de la predicción de datos. Él definió a la

geoestadística como "la aplicación del formalismo de las funciones aleatorias al

reconocimiento y estimación de fenómenos naturales".

En los años sucesivos la teoría se fue depurando, ampliando su campo de validez y

reduciendo las hipótesis necesarias[21]. De la minería las técnicas geoestadísticas, se han

"exportado" a muchos otros campos como hidrología, física del suelo, ciencias de la tierra

y más recientemente al monitoreo ambiental y al procesamiento de imágenes de

satélite[22].

La geoestadística es un conjunto de técnicas usadas para analizar y predecir valores de

una propiedad distribuida en espacio o tiempo. En contraposición con la estadística

clásica o convencional, tales valores no se consideran independientes, por el contrario se

suponen de manera implícita que están correlacionados unos con otros, es decir que

existe una dependencia espacial[5].

3.1.2. Etapas del análisis geoestadístico

La geoestadística es solo una de las áreas del análisis de datos espaciales. Por esto es

importante reconocer cuándo la información georreferenciada es susceptible de ser

analizada por medio de dicha metodología[5].

Desde el punto de vista de la geoestadística, la primera etapa para desarrollar un análisis

de los datos se enfoca en la concepción del problema. En esta etapa es importante el

análisis de la calidad y cantidad de datos que se emplearán en el desarrollo del estudio,

así como la estructura de los metadatos; sobre todo resulta indispensable determinar si

los métodos que brinda la geoestadística son convenientes para realizar el trabajo. Estas

consideraciones no solo se tienen en cuenta en la geoestadística, sino en todas aquellas

que involucren un tratamiento de información espacial[23].

La segunda etapa del análisis es conocida como análisis exploratorio y estructural de

datos; la parte exploratoria se refiere al uso de técnicas estadísticas convencionales para

obtener toda la descripción de los datos, como distribuciones, medidas de tendencia

central, entre otras. En el análisis estructural lo que se busca es detectar la presencia de

anisotropía o isotropía del proceso estocástico, esta se asocia a la variabilidad y

comportamiento de los datos en el espacio, a la vez que se busca la presencia de

7

tendencia en la serie de datos. Estos dos elementos, variabilidad y tendencia, se

encuentran asociados a la estacionariedad, que es el concepto clave en esta etapa, en

última instancia lo que pretende el análisis estructural es determinar si el fenómeno que

se estudia se comporta como un proceso estacionario[23]. Si el proceso no es estacionario,

es decir que la función de distribución conjunta del proceso estocástico sea invariante con

respecto a cualquier traslación del vector posición, en la siguiente etapa del análisis se

obtendrá un modelo de ruido blanco si se emplean métodos kriging no apropiados, por

ejemplo Díaz[24] propone como modos habituales para el manejo de la no estacionaridad

la aplicación del método kriging universal o las funciones aleatorias intrínsecas de orden

k.

Los datos susceptibles de ser tratados con técnicas geoestadísticas no se consideran

independientes, por el contrario se supone de manera implícita que están correlacionados

unos con otros, es decir que existe una dependencia espacial. Intuitivamente esto indica

que mientras más cercanos estén situados dos puntos están más correlacionados y

mientras más separados hay menos relación entre estos (Ley de Tobler). El proceso de

estimación y modelación de la función que describe la correlación espacial, forma parte

de la tercera etapa del análisis “el modelado del semivariograma”. En algunos casos

también se emplean otras funciones como el covariograma y el correlograma, sin

embargo la información requerida para calcular el semivariograma es de más fácil

obtención que la requerida por las otras dos funciones, sin que existan en los resultados

del semivariograma y de los otros modelos diferencias en la descripción de la estructura

de correlación de los datos, siempre y cuando se cumpla la hipótesis de estacionariedad

de segundo orden[23]. En las aplicaciones en geoestadística lineal resulta suficiente

estimar los momentos hasta de segundo orden, no obstante en la mayoría de los casos la

información disponible no permite inferir momentos de orden superior[11].

Una vez se ha realizado la selección del modelo de semivarianza, se procede a realizar la

tarea de predicción. Este proceso se puede realizar mediante el uso de métodos de

interpolación kriging o a través de “simulaciones condicionales”, aunque también existen

métodos de interpolación determinísticos. Esta es la cuarta etapa del análisis[23].

En los métodos kriging es común trabajar con kriging puntuales, como kriging ordinario,

simple y universal, entre otros, los cuales indican el valor que puede tomar la variable

regionalizada en un punto. Sin embargo, así como se trabajan con puntos aislados

también se suele trabajar la interpolación en bloques. En general los métodos se pueden

combinar, todo depende de las características de los datos y de lo que se desee hacer con

ellos. Por ejemplo si la variable tiene tendencia es mejor usar un método como kriging

8

universal no perdiendo de vista que es diferente modelar tendencia a eliminar

tendencia[23].

Una vez culmina el proceso de interpolación, en la quinta etapa se realiza una selección

del método por medio de una validación cruzada. En los métodos kriging cuando se

pronostica el valor de una variable en un punto que fue muestreado se obtiene como

resultado el mismo valor, por lo que en principio la evaluación de los errores al realizar

pronósticos se dificulta. La validación cruzada consiste en quitar un punto considerado

en el modelado del semivariograma para realizar los pronósticos haciendo uso de los

métodos de interpolación[23].

Una vez se ha evaluado el buen ajuste del modelo de semivarianza a los datos y se ha

verificado la bondad de los resultados obtenidos con los métodos de interpolación

kriging, que para el caso del presente trabajo será el kriging simple, viene la sexta y

última etapa del análisis geoestadístico, donde se elaboran salidas como los mapas de

probabilidad y de desviaciones estándar, acompañados de su interpretación, análisis y

conclusiones[23].

El diagrama 1 (Pág. 10) resume las etapas del análisis geoestadístico y presenta los

elementos representativos de cada una.

3.1.2.1. Análisis Exploratorio y Estructural de Datos Espaciales

El análisis exploratorio de datos espaciales (AEDE) es un conjunto de técnicas

destinadas a detectar esquemas de asociación espacial, concentraciones locales y

regímenes espaciales presentes en un conjunto de datos para los que las características de

localización resultan esenciales[25].

El análisis exploratorio de datos (AED) podría definirse como el conjunto de

herramientas gráficas y descriptivas utilizadas para el descubrimiento de patrones de

comportamiento en los datos y el establecimiento de hipótesis con la menor estructura

posible[26].

De este modo, es posible obtener una estructura explicativa de los datos a través de unas

técnicas que combinan herramientas de estadística básica (descriptivos, correlaciones,

tablas de frecuencias o de correlación cruzada) con análisis multivariante avanzado,

especialmente diseñado para identificar formas en grandes bases de datos[4].

9

El AEDE sirve pues para describir y visualizar las distribuciones espaciales de los datos,

para identificar los esquemas de asociación espacial dominantes y las localizaciones

atípicas, consiste en la aplicación de estadística descriptiva que permite observar los

datos, para tener una idea de cuál es su estructura[27]. Los objetivos principales de esta

etapa son: describir los datos, investigar la calidad de estos, buscar posibles estructuras o

patrones sin realizar ninguna hipótesis matemática acerca de la estructura de estas

observaciones o variables, examinar los datos previamente a la aplicación de cualquier

interpolador (lineal o no lineal) y obtener un conocimiento inicial de los datos y de las

relaciones entre las variables.

Para realizar un AEDE conviene seguir los siguientes pasos[28]:

1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.

2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar,

para el caso de estudio serán los niveles digitales de la imagen satelital en cada una de

las bandas, y un análisis descriptivo numérico que permita cuantificar algunos

aspectos gráficos de los datos.

3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un

análisis descriptivo numérico que cuantifique el grado de interrelación existente entre

ellas.

4) Evaluar, supuestos básicos como normalidad, tendencia.

5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que

puedan ejercer en análisis estadísticos posteriores.

6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes

(missing) sobre la representatividad de los datos analizados.

El análisis estructural consiste en estimar y modelar una función que refleje la

correlación espacial de la variable regionalizada, en el caso de este trabajo será la clase

asociada a la cobertura de suelo, a partir de la adopción razonada de la hipótesis más

adecuada acerca de su variabilidad. Esto quiere decir, que dependiendo de las

características de estacionaridad del fenómeno, se modelará la función de covarianzas o

la de semivarianzas[11].

10

Cantidad de datos

Obtención y manejo de datos espaciales Calidad de los datos

Metadatos

AnisotropVariabilidadAnálisis Exploratorio y

Estructural de Datos Espaciales

Etapas del análisis

Geoestadístico

ía

Isotropía

Tendencia

Modelo Experimental Modelamiento del Semivariagrama

Modelo Teórico

Kriging ordinario

Kriging simple

Kriging universalMétodos Geoestadísticos

Kriging

Métodos de Interpolación

en bloques

Kriging indicador

Kriging probabilistico

IDW

Interpolación polinomial local

Métodos determinísticos Interpolación polinomial global

Funciones de base radial

Polígonos de Voronoi

Selección de Método Validación Cruzada

Elaboración de salidas, Interpretación y Análisis

Figura 1. Etapas del análisis geoestadístico[23]

11

3.1.2.2. Variables estacionarias y no estacionarias

Sea ( ) una variable regionalizada entonces el vector aleatorio { ( ) ( ) ( )}

se caracteriza por su función de distribución de probabilidad n-variada:

( ) ( ) ( )( ) [ ( ) ( ) ( ) ] (1)

Se dice que una variable regionalizada es estrictamente estacionaria si su función de

distribución (Ec. 1) es invariante a cualquier traslación respecto a un vector o lo que

es equivalente, la función de distribución del vector aleatorio { ( ) ( ) ( )} es

idéntica a la del vector { ( ) ( ) ( )} para cualquier [11].

Se dice que una función aleatoria es estacionaria de segundo orden si se cumple que:

1. su valor esperado existe y no depende de

[ ( )] (2)

2. para cualquier par de variables regionalizadas ( ) y ( ), su covarianza

existe y solo depende del vector de separación [11].

Bajo esta hipótesis el semivariograma ( ), también es estacionario y se cumple que:

( )

[ ( ) ( )]

(3)

Además existe una relación directa entre el semivariograma y la función de covarianza

( ):

( ) ( ) ( ) (4)

Existen variables regionalizadas ( ) que representan a fenómenos físicos que muestran

una capacidad casi ilimitada de variación, por lo que para estas variables no están

definidas la varianza ni la covarianza. Sin embargo existen casos en que sus incrementos

o diferencias ( ) ( ) tienen una varianza finita. En otras palabras, esto quiere

decir que las diferencias son estacionarias de segundo orden[11].

Las variables regionalizadas intrínsecas son aquellas que cumplen las siguientes

condiciones:

12

1. El valor esperado de las diferencias es

[ ( ) ( )] (5)

2. La varianza de las diferencias es

[ ( ) ( )] ( ) (6)

Estas condiciones se conocen como Hipótesis Intrínseca. Es evidente que una función

aleatoria estacionaria de segundo orden es siempre intrínseca. Lo contrario no se cumple.

A las funciones que cumplen con la hipótesis intrínseca se les considera como débilmente

estacionarias[11].

Las variables regionalizadas no estacionarias son aquellas cuya esperanza matemática

depende de

[ ( )] ( ) (7)

A ( ) se le conoce como función de deriva o tendencia[11].

3.1.2.3. Modelado del Semivariograma

El semivariograma, es la herramienta central de la geoestadística. Dada una variable

regionalizada ( ) que cumpla la Hipótesis Intrínseca entonces existe la función

semivarianza y se define como sigue:

( ) [ ( ) ( )] (8)

( ) [ ( ) ( )] ( [ ( ) ( )]) ⏟

(9)

( )

[ ( ) ( )] (10)

La función de semivarianza caracteriza a las propiedades de dependencia espacial del

proceso estocástico[11].

13

El semivariograma es una función que relaciona la semivarianza con el vector conocido

como "lag" o “rezago”, el cual denota la separación en distancia y dirección de cualquier

par de valores ( ) y ( ), [ ] .

Existes varios estimadores del semivariograma, el estimador más común es

( )

( )∑[ ( ) ( )]

( )

(11)

Siendo ( ) el número de pares ( ) y ( ) separados a una distancia | |.

Otro estimador es el de Cressie y Hawkins, este constituye una alternativa robusta al

estimador tradicional y se define como:

( )

(

( ))

[

( )∑[| ( ) ( )|]

( )

]

(12)

De estos modelos se obtiene el semivariograma experimental[11].

3.1.2.4. Semivariogramas teóricos

El semivariograma experimental presentado en la sección anterior, es calculado sólo para

algunas distancias promedios particulares, ahora se hace necesario ajustar un modelo

donde se generalice lo observado en este semivariograma para cualquier distancia.

Existen diversos modelos teóricos de semivarianza que pueden ajustarse al

semivariograma experimental. En general dichos modelos pueden dividirse en no

acotados p.e. lineal, logarítmico, potencial y acotados p.e. esférico, exponencial,

gaussiano[29].

En la selección de una función adecuada para ser ajustada a un semivariograma teórico,

se debe tener en cuenta hasta tres elementos, en la mayoría de las casos: un intercepto

con la ordenada, una sección monótonamente creciente y una meseta. Sin embargo, no

servirá cualquier modelo que aparente ajustar a los valores empíricos debido a la

siguiente razón[11].

14

No cualquier función sirve como modelo de semivariograma, solo las funciones que

cumplen con las siguientes condiciones se denominan modelos autorizados del

semivariograma:

1. ( ) debe ser condicionalmente negativa semidefinida.

2. El semivariograma debe tener un ritmo de crecimiento inferior a , es decir se

debe cumplir que

( )

(13)

Como una propiedad importante se debe destacar que cualquier combinación lineal de

modelos autorizados es un modelo autorizado[11].

Normalmente el semivariograma es una función monótona no decreciente, ya que al

aumentar también aumenta, al menos en forma cuadrática, la diferencia entre ( ) y

( ) ; por lo general en el semivariograma son identificables tres partes fácilmente:

el efecto pepita ( ), la meseta (a) y el rango ( ), esto ocurre si se está ante un

semivariograma acotado (Figura 2a)[30].

(a) (b)

Figura 2. Partes del Semivariograma. (a) Semivariograma acotado (b) Semivariograma no acotado[30].

El efecto pepita: Aunque teóricamente ( ) , con frecuencia el semivariograma es

discontinuo en el origen con un salto finito que se conoce como Pepita, Efecto Pepita o

“Nugget”; éste se denota por (Figura 3) y representa una discontinuidad puntual del

semivariograma en el origen. Esto puede deberse a errores de medición en la variable o

15

en la escala de la misma. En algunas ocasiones puede ser indicativo de que parte de la

estructura espacial se concentra a distancias inferiores a las observadas[30].

Ahora bien, la varianza puede expresarse como sigue:

(14)

donde es la varianza de la variable regionalizada ( ),

es el ruido blanco del

modelo de semivarianza, es el error de micro escala, es la varianza de la variable

regionalizada ( ) [30].

Entonces el efecto pepita estará dado por:

(15)

Figura 3. Representación Gráfica del Efecto Pepita[30]

La meseta: Si ( ) es estacionaria, ( ) alcanza un valor límite constante llamado

meseta que coincide con la varianza de la variable regionalizada (Ec. 14); en otras

palabras la meseta es la cota superior del semivariograma o si se prefiere también puede

definirse como el límite del semivariograma cuando la distancia tiende a infinito. La

meseta puede ser o no finita (Figura 2). Los semivariogramas que tienen meseta finita

cumplen con la hipótesis de estacionariedad fuerte, mientras que si ocurre lo contrario, el

semivariograma describe un fenómeno que cumple solo con la hipótesis intrínseca

(estacionariedad débil). La meseta se denota como o por cuando la pepita es

diferente de cero[30].

16

Si la pepita se asocia a un error de las mediciones, se explica la afirmación de que en un

modelo que represente bien la realidad la pepita no debe representar más del 50% de la

meseta. Si el ruido espacial en las mediciones explica en mayor proporción la variabilidad

que la correlación del fenómeno, las predicciones que se obtengan pueden ser muy

imprecisas[30].

El rango: La distancia a la que el semivariograma alcanza la meseta se denomina rango

o alcance y marca la zona de influencia en torno a un punto, más allá de la cual la

autocorrelación es nula. En términos prácticos corresponde a la distancia a partir de la

cual dos observaciones son independientes[30].

Existen algunos modelos de semivariograma en los que no existe una distancia finita

para la cual dos observaciones sean independientes, así que se acuñó el término rango

efectivo para referirse a la distancia para la cual el semivariograma alcanza el 95% de la

independencia espacial. El rango no siempre aparece de manera explícita en la fórmula

del semivariograma[30].

Dependiendo de las características del rango, el efecto pepita y la meseta, los modelos

teóricos de semivariograma pueden ser esférico, exponencial, gaussiano, de pepita puro o

monómico; por ejemplo, en el modelo esférico se puede observar un crecimiento casi

lineal y después a cierta distancia finita del origen se alcanza la meseta, mientras que un

modelo exponencial, crece inicialmente más rápido y después se estabiliza de forma

asintótica[30].

En un modelo gaussiano al igual que en el exponencial, la dependencia espacial tiende a

desaparecer cuando la distancia tiende al infinito, además se caracteriza por su

comportamiento parabólico cerca al origen. Cuando se habla de un modelo monómico se

trata de modelos que no alcanzan la meseta y un modelo de pepita puro es aquel que

indica la falta de correlación espacial entre las observaciones de una variable. En la

Tabla 1 (Pag. 21) se resumen algunos modelos teóricos de semivariograma, su función de

covarianza y su función de semivarianza. La selección de modelos tiene como objetivo

último el comparar varios modelos alternativos con el objeto de elegir el más

adecuado[30].

3.1.3. Métodos de interpolación geoestadísticos

La geoestadística, estudia las variables distribuidas espacialmente, partiendo de una

muestra representativa del fenómeno en estudio, utilizando como elemento fundamental

17

el análisis de la distribución espacial de información disponible, proponiendo la

minimización de la varianza del error de estimación, obteniéndose el mejor estimador

lineal insesgado (MELI), el kriging[31].

El método de interpolación geoestadístico se conoce como kriging, en reconocimiento al

aporte inicial de D.G. Krige. Dentro de su formulación matemática se incluyen dos

restricciones básicas, en las que se limita la suma de los errores de estimación a ser cero

y el cuadrado de las desviaciones a ser mínimo. La restricción establecida sobre la

varianza de estimación, hace que el kriging sea el MELI[23].

Sea ( )iZ S el valor de una variable cualquiera, medida en el punto iS con i =1,..., n,

donde n representa la cantidad de puntos pertenecientes a un plano referenciado con

respecto a un sistema de coordenadas cualquiera (planas, cartesianas, geográficas, etc.).

El objetivo del kriging en general es estimar el valor de la variable en un punto 0S no

medido con anterioridad. Para esto, realiza una suma ponderada sobre todos los puntos

de muestra, de manera tal que el valor estimado para el punto 0S es:

( ) ( ) ( ) ( ) (16)

n

i

ii SZSZ1

0 )()(ˆ (17)

Donde 0

ˆ( )Z S es el valor estimado, corresponden a los valores de los pesos

asignados y ( ) ( ) ( ) ( ) , son los valores de los puntos conocidos en

general[23]. Los pesos son calculados de acuerdo a los siguientes criterios:

1. El valor estimado debe ser insesgado: en este caso la suma de los pesos debe ser igual

a uno, para que los errores de predicción tengan promedio cero.

2. La varianza de estimación debe ser mínima, para que los pesos minimicen el error de

predicción[23].

Para resolver el sistema de ecuaciones del kriging, se requiere información sobre las

dependencias espaciales que caracterizan a cada unidad analizada. Estas son

proporcionadas por los modelos de semivarianza, los semivariogramas[23].

Si no existe tendencia significativa de manera que se puede considerar que la variable es

estacionaria de segundo orden o al menos que sea intrínseca, es decir, que las diferencias

18

sean estacionarias de segundo orden, entonces se puede estimar la propiedad mediante

algún método kriging[23].

Existen diversos métodos kriging, el uso de uno u otro está en función del análisis

estructural que se realizó en una etapa previa. En el caso de existencia de tendencia, esta

se puede modelar al estimar la propiedad si se aplica el método de kriging Universal,

pero este método tiene el inconveniente que requiere no solo conocer la función de

semivarianzas, sino también la forma de la tendencia lo cual resulta muy difícil a priori

y en general es un método de prueba y error algorítmicamente complicado. Es preferible

en tal caso usar el método conocido como kriging residual, el cual consiste en determinar

de manera iterativa la tendencia como una función polinomial, para posteriormente

aplicar el método de kriging ordinario a los residuos obtenidos que deben ser

estacionarios, de manera que el valor estimado en un punto sería la suma de la tendencia

más la estimación por kriging ordinario en dicho punto[23].

La mayoría de métodos kriging no son adecuados para el tratamiento de variables

dicotómicas, ya que en sus supuestos se requiere que los datos sigan una distribución

gaussiana y debido a la naturaleza discreta de estos datos tal supuesto no se cumple. Al

igual que con la regresión lineal estándar, sin embargo es posible generalizar la técnica de

kriging a datos no gaussianos. En particular, es posible utilizar lo que Reich[32]

denomina kriging categórico. En este método la probabilidad de que un punto

pertenezca a la categoría está dada por

( ) { }

donde es el número de categorías[33]. El objetivo es encontrar la estimación de ( ),

denotado por ( ), para cada categoría y luego elegir la categoría con la mayor

"probabilidad" estimada como el valor en ubicación , esto sujeto a la restricción

∑ ( )

(18)

para todas las ubicaciones, [33].

La forma general de la estimación para ( ), es similar a la estimación del kriging

ordinario, así

( ) ∑ ( ) (19)

19

donde ( ) es 1 si el valor en la ubicación cae en la categoría y cero en caso

contrario[33]. Para verificar la restricción (Ec. 18) es suficiente asumir que los pesos, ,

son constante para todas las categorías (es decir ) e imponer la

condición insesgamiento ∑ [34].

Empleando una aproximación geoestadística para encontrar el nuevo estimador

( ) ∑ ( ) (20)

Se requiere el uso de una sola covarianza para todas las categorías, que puede ser

definida como la probabilidad de dos puntos separados por un vector, , que pertenecen

a la misma categoría [35]. Específicamente, se define

( ) {∑ ( ( ) ( )) } (21)

Se desea encontrar el estimador que minimiza la suma esperada de las diferencias

cuadradas entre los valores estimados y los valores reales. Es decir, se desea minimizar la

cantidad

∑ { ( ) ( )} (22)

La minimización de (Ec. 22) no implica que el error para cada categoría se reduzca al

mínimo. Sin embargo, es lo deseado para encontrar un estimador consistente en todo el

conjunto [35].

Reducir al mínimo (Ec. 22) sujeto a la restricción de que ∑ conduce al sistema

clásico de kriging

∑ ( ) ( ) (23)

donde ( ) ( ) y es el vector de distancia entre los puntos e . Los pesos

resultantes aseguran que la restricción dada en la (Ec. 18) se satisface y que la (Ec. 22)

se reduce al mínimo[33].

Como se dijo anteriormente, la práctica general es obtener las estimaciones ( ), para

cada ubicación, , y utilizar como la categoría pronosticada para un lugar determinado

esa categoría cuya estimación asociada es la mayor. Suponiendo una distribución

20

multinomial, una estimación del error estándar de la predicción asociado con la

probabilidad de la clasificación de una ubicación en una categoría dada, viene dada por

( ( )) √ ( )( ( )) ( ) (24)

donde es el número de vecinos más cercanos utilizados por el método kriging[32].

En algunos casos resulta útil pensar en diseños de redes. Los errores estándar dados en

(Ec. 24) tienen algunos inconvenientes para decidir sobre un diseño óptimo de red. En

particular, es posible seleccionar una categoría en particular, es decir un , para un sitio,

, con los ( ) cuando esa categoría no es en realidad la que corresponde a la

ubicación. A pesar de esto, el error estándar de la predicción es cero; lo que implica que

la predicción no presenta error a pesar de estar mal. Los métodos presentados hasta

ahora proporcionan una manera de emplear información de los sitios que se encuentran

en el vecindario de una ubicación de interés para la predicción de esta. Sin embargo, no

está claro cómo utilizar esta información para determinar qué diseño de red es

"mejor"[33].

Específicamente, para un conjunto dado de puntos candidatos, , se denota el conjunto

de puntos de diseño como , donde , entonces un criterio de promedio general es

un promedio de puntos cubiertos en la región de diseño. Esto es

(∑ (∑ ( ) )

)

(25)

donde , son parámetros y ( ) es una distancia métrica o una diferencia

métrica. Es decir, si la función de covarianza (Ec. 21) es considerada como una matriz de

correlación (todos los valores se encuentran entre cero y uno), entonces una diferencia

métrica haría ser ( ) ( ) , donde ( ) ( ) y es el vector de

distancia entre y . Los grandes valores negativos de tienden a producir diseños que

son más dispersos y como y el resultado da un diseño clásico

minimax[33].

Otros métodos kriging son los presentados en el Diagrama 1 del presente trabajo.

21

Tabla 1. Modelo Teóricos de Semivarianza. [23]

MODELO FUNCIÓN DE SEMIVARIANZA FUNCIÓN DE COVARIANZA GRAFICA ( )h

Modelo

s acota

dos

o t

ransi

tivos

Modelo

efecto

pepita 0

0 si 0( )

si 0

hh

C h

0 si 0( )

0 si 0

C hC h

h

Modelo

lineal

con

meseta

0 1

0 1

si 0( )

si

hC C h a

h a

C C h a

1 1 si 0( )

0 si

hC h a

C h a

h a

Modelo

esférico

3

0 1

0 1

0 si 0

3 1( ) si 0

2 2

si

h

h hh C C h a

a a

C C h a

0 1

3

1

si 0

3 1( ) 1 si 0

2 2

0 si

C C h

h hC h C h a

a a

h a

Modelo

exponencial

3

0 1 1 si 0( )

0 si 0

h

aC C e hh

h

3

1

0 1

si 0( )

si 0

h

aC e hC h

C C h

Modelo

gaussiano

2

2

3

0 1 1 si 0( )

0 si 0

h

aC C e h

h

h

2

2

3

1

0 1

si 0( )

si 0

h

aC e h

C h

C C h

Modelo

de

efecto

agujero

0 1

( )1 si 0

( )

0 si 0

sen hC C h

h h

h

1

0 1

( ) si 0

( )

si 0

sen hC h

C h h

C C h

22

3.2. Conceptos básicos de la clasificación de imágenes

satelitales

A continuación se presenta la teoría de clasificación de imágenes satelitales, incluyendo

las características básicas de las imágenes digitales, plataformas satelitales y sensores

remotos, métodos convencionales y no convencionales empleados en la clasificación de

imágenes satelitales.

3.2.1. Características básicas de las imágenes digitales

Una imagen digital es un arreglo bidimensional, es decir, matrices que almacenan

números enteros o los mismos niveles digitales (ND), que expresan la reflectancia de la

superficie terrestre. Hay que tener presente que una imagen no es una sola matriz son m

matrices y m depende del número de bandas o la resolución espectral de la imagen[6].

El tamaño de cada píxel está determinado por la resolución espacial de la imagen, sin

embargo el píxel se puede modificar de tamaño, mediante técnicas de remuestreo. El

tamaño de la imagen depende básicamente del sensor o programa pues cada uno cubre

un área diferente[6].

En particular las imágenes multiespectrales son imágenes que se captan mediante un

sensor digital que mide la reflectancia en muchas bandas. Por ejemplo, un conjunto de

detectores puede medir energía roja reflejada dentro de la parte visible del espectro

mientras que otro conjunto mide la energía del infrarrojo cercano. Es posible incluso que

dos series de detectores midan la energía en dos partes diferentes de la misma longitud

de onda. Estos distintos valores de reflectancia se combinan para crear imágenes de

color. Los satélites de teledetección multiespectrales de hoy en día miden la reflectancia

simultáneamente en un número de bandas distintas que pueden ir de tres a catorce[6].

3.2.2. Plataformas satelitales y sensores remotos

La exploración de la superficie terrestre a partir de plataformas espaciales ha tenido un

vertiginoso desarrollo en lo últimos años. Esta técnica de percepción remota tiene como

principio la captura de información de la superficie en imágenes que permitan obtener

una visión global de determinada zona de interés. Estos instrumentos han ido

evolucionando desde sus inicios de simples cámaras hasta complejos equipos capaces de

discriminar el haz de luz incidente en diferentes niveles de información, o en otros casos,

emitir por su propia cuenta el haz de luz que traerá la información de interés[6].

23

En la actualidad se cuenta con una gran cantidad de plataformas satelitales comerciales

(Landsat, Ikonos, IRS, SPOT, QuickBird entre otros) que llevan consigo sensores

especialmente diseñados y calibrados (TM, ETM+, LISS, WIFS, HRVIR, XS). Los

satélites sobre los cuales están ubicados los sensores se encuentran más o menos a una

altura de 36.000 km sobre la superficie terrestre y la mayor parte son sensores pasivos, es

decir captan la energía emitida por las diferentes coberturas de la superficie terrestre.

Los sensores toman las imágenes y una estación receptora se encarga de procesar la

información, para entregar las imágenes a los diferentes usuarios[6].

Un concepto que se tratará con frecuencia es el de resolución; este término hace

referencia a la capacidad que tiene cada sensor para captar información en detalle. En

particular la resolución espacial es la capacidad que tiene el sensor para discriminar

objetos por el tamaño, también se puede decir que es el mínimo tamaño de un objeto que

puedo discriminar en la imagen; la resolución espectral es la capacidad que tiene el

sensor para trabajar en diferentes zonas o regiones del espectro electromagnético y la

resolución radiométrica es la capacidad que tiene el sensor para discriminar los valores

digitales asignados a los objetos[6].

3.2.3. Clasificación de imágenes satelitales

La clasificación de una imagen es una tarea que se realiza con el propósito de convertir

datos cuantitativos (generalmente los ND de los pixeles en cada banda espectral) en

datos cualitativos (temas o clases que son importantes en un dominio especifico del

conocimiento)[36].

Los algoritmos de clasificación de imágenes se pueden dividir en dos grupos,

supervisados y no supervisados. Las técnicas supervisadas tienen una fase de

entrenamiento en la cual se usan muestras representativas de las clases seleccionadas

para establecer un modelo del proceso de clasificación. Las técnicas no supervisadas no

requieren ningún entrenamiento y tampoco suponen la definición previa de una clase,

ellas se basan únicamente en la agrupación de los datos usualmente utilizando alguna

métrica euclidiana[37].

Lizarazo [37] sugiere el siguiente flujo de trabajo para la clasificación de imágenes, él

tomó como base otro proceso propuesto por Richards y Jia[36]:

24

1. Definición del Problema: las clases objetivo deben ser definidas, , , al

igual que el conjunto de atributos que se utilizarán para identificar las clases ,

.

2. Selección de las muestras de entrenamiento para cada una de las clases objetivo.

Para que la clasificación sea exacta, esas muestras deben ser ‘representativas’ de

cada clase. Es recomendable realizar algún tipo de análisis exploratorio para

establecer si las clases se están caracterizando de manera correcta, al igual que

entender si existen dificultades para la separación de las clases. Si se descubre

algún problema de caracterización, se deben modificar las clases objetivo y/o

cambiar los atributos que se utilizarán para diferenciarlas.

3. Construcción del clasificador usando criterios predeterminados: En Inteligencia

Artificial (IA) este paso se conoce de manera indistinta como fase de

entrenamiento o como aprendizaje inductivo[38].

4. Validación de los resultados del entrenamiento: Este paso busca evaluar el

desempeño del clasificador usando datos nuevos que no se han utilizado en el

entrenamiento. Si los resultados no son satisfactorios, puede ser necesario repetir

el proceso de entrenamiento utilizando criterios diferentes.

5. Aplicación del clasificador a todos los datos de la imagen para producir una

clasificación de toda el área de interés.

La clasificación de imágenes satelitales es una de las tareas más frecuentes entre las

personas y empresas que se dedican a procesar y analizar datos geográficos. A lo largo de

los años se han desarrollado y propuesto diversos métodos para clasificar imágenes, entre

ellos se encuentran el método de mínima distancia, también conocido como distancia

espectral, el método de distancia de Mahalanobis, el método de Máxima Probabilidad

también conocido como Bayesiano, la metodología Fuzzy[39], los algoritmos de RNA

MLP, entre otros.

3.2.4. Métodos convencionales y no convencionales para la

clasificación de imágenes

La Distancia de Mahalanobis es una medida de distancia introducida por Mahalanobis

en 1936. Su utilidad radica en que es una forma de determinar la similitud entre dos

variables aleatorias multidimensionales. Se diferencia de la distancia euclídea en que

tiene en cuenta la correlación entre las variables aleatorias[40].

Las SVM son una técnica de clasificación de aparición relativamente reciente y ha

tomado mucha fuerza en años recientes; en muchas aplicaciones, las SVM han mostrado

25

tener gran desempeño, más que las máquinas de aprendizaje tradicional como las redes

neuronales y han sido introducidas como herramientas poderosas para resolver problemas

de clasificación[7]. Son un método de clasificación que se basa en encontrar el mejor

hiperplano que separa dos conjuntos de datos pertenecientes a dos clases distintas. Para

ello, se maximiza la distancia al punto más cercano de cada clase con el fin de obtener el

menor error de generalización. Para hallar la frontera de separación, es necesario resolver

un problema de optimización usando técnicas de programación cuadrática. A partir del

hiperplano ajustado, se pueden clasificar nuevos datos en una de las dos categorías.

Además, las SVM permiten la separación de datos no linealmente separables,

transformando los datos de entrada a un espacio de mayor dimensión conocido como

espacio de características en el que sí pueden ser separados mediante un hiperplano. La

transformación se realiza mediante unas funciones denominadas núcleo o kernels[41].

Modificando distintos parámetros de las SVM se pueden obtener diferentes tipos de

fronteras de separación. Habitualmente, las SVM se emplean para clasificación

binaria[41].

Existen varios algoritmos para trabajar árboles de decisión por ejemplo el ID3, el C4.5,

el C5, el CART (Classification and Regresion Trees), entre otros. En los árboles de

decisión el paso a través del árbol es lo que explica la clasificación. Cada hoja contiene

información sobre el número de observaciones que caen en ella y la proporción para cada

clase; la clase más densa se selecciona como la clasificación para el nodo. Los árboles se

pueden utilizar para asignar puntajes a los datos, explorar datos, hacer clasificaciones y

predicciones y para comprender que variables son más importantes[2].

En general en la creación de un árbol de decisión se utiliza un conjunto de datos de

entrenamiento y se utiliza un conjunto de datos de validación para reducir la

complejidad del árbol y generalizarlo (proceso de poda o “pruning”) y así eliminar el

problema del sobreajuste u “overfitting”[2].

La poda de árboles de decisión es una tarea muy común y busca incrementar la

estabilidad del modelo al reducir su complejidad. Cada división del árbol reduce el error,

pero al aumentar el número de hojas, éstas contienen menos registros del conjunto de

datos de entrenamiento y se reduce la posibilidad de que la distribución de resultados en

una hoja sea similar a un conjunto de datos, es decir, el árbol se sobreajusta

(“overfitting”), entonces los datos de prueba son utilizados para encontrar el punto

donde la complejidad adicional empieza a ocasionar daños en el árbol en lugar de

mejorarlo[2].

26

El proceso recursivo de creación se inicia con todos los datos del conjunto de

entrenamiento en la raíz, para cada variable “input” se decide la mejor forma para

separar los valores de la variable “target”, se selecciona la variable “input” y criterio de

mejor separación mediante ésta para los valores de la variable “target”, se divide el nodo

en cuestión en dos o más hijos de acuerdo con aquella variable que “mejor divide” la

variable “target” y se repite el proceso con los otros nodos hasta que no sea posible más

divisiones. La medida para evaluar la calidad de una división en un árbol de decisión se

denomina pureza, esa medición de pureza depende de la variable “target” no de las

variables “input”; dentro de los métodos para medir la pureza en variables “target”

categóricas está el índice Gini, la Entropía, el radio de ganancia de información y la

prueba chi-cuadrado, para las variables “target” intervalo o radio está la prueba de

reducción en varianza y la prueba F[2].

La entropía es utilizada en la teoría de la información para medir la cantidad de

información almacenada en un número de bits; una población pura tiene una entropía de

0, si existen dos grupos igualmente representados la entropía es 1, el objetivo será

entonces minimizar la entropía. La entropía está dada por la siguiente expresión[2]:

( ) ∑ ( ) ( )

(26)

Donde ( ) es la proporción de muestras de entrenamiento perteneciente a la clase ,

{ }, dentro del nodo . Aquí, es el número de clases. Es decir, el nodo

contiene ejemplos, entonces ( ) es calculada mediante la siguiente expresión:

( )

∑ ( )

(27)

Donde

( ) {

De otra manera la entropía está dada por:

( ( )) ∑ ( ( )

) ( ( ) )

(28)

27

La ganancia está dada por:

( ) ( ) (

) ( ( )) (

) ( ( )) (

) ( ( )) (29)

El índice de Gini es la suma de los cuadrados de las proporciones de las poblaciones, se

asocia con la probabilidad de que dos cosas escogidas al azar de una población sean la

misma, así las cosas una población pura tiene un índice de Gini de 1, si hay dos grupos

igualmente representados en una población el índice de Gini es 0.5; el objetivo es

maximizar el índice de Gini[2].

( ) (

) ( ( )) (

) ( ( )) (

) ( ( )) (30)

El índice Gini en contraste con la medida de entropía tiene preferencia por grupos

similares en tamaño, la entropía tiene preferencia por grupos más pequeños y puros[2].

A lo largo del tiempo se comenzaron a proponer diferentes modelos de árboles que

buscaban optimizar los tiempos de procesamiento y disminuir los errores en los

resultados del algoritmo[2].

Quinlan [42] propone un método de decisión e inducción denominado ID3, él señaló que

la construcción de un árbol de decisión requiere de una estrategia de "divide y vencerás"

que utiliza un procedimiento de prueba recursiva cuyo objetivo era generar un pequeño

árbol. ID3 utiliza la ganancia de información como base para la inducción del árbol.

Como una extensión del algoritmo de inducción ID3, surge el C4.5 para dar cuenta de

las diversas cuestiones que no se abordan adecuadamente con ID3[43, 44]. Las

importantes mejoras incluyen la elección de una medida para la selección del atributo

adecuado, el manejo de datos con atributos faltantes, manejo atributos numéricos y

continuos, así como la poda del árbol de decisión. C4.5 utiliza ya sea ganancia de

información o una versión normalizada llamada la relación de ganancia para elegir

atributos como candidatos para el fraccionamiento[2].

Otro desarrollo derivado del C4.5 llamado SEE5.0 puede funcionar con varios tipos de

datos adicionales, a los que ya están disponibles en C4.5, incluye fechas, horas, marcas

de tiempo, ordenó atributos discretos y las etiquetas de caso. Además de hacer frente al

problema de los valores perdidos, SEE5.0 permite que los valores se marquen como no

aplicables y proporciona facilidades para la definición de nuevos atributos como

funciones de otros atributos. SEE5.0 también introduce el concepto de “boosting”, que es

28

una técnica para combinar múltiples procesos de aprendizaje ponderando adecuadamente

los píxeles de entrenamiento de las clases para mejorar la exactitud de predicción[2].

CHAID[45] se utiliza para estudiar la relación entre las variables dependientes y una

serie de variables de predicción. CHAID selecciona un conjunto de predictores y sus

interacciones para predecir de manera óptima la medida dependiente. El propósito

principal de la prueba de Chi-cuadrado es mirar la relación entre dos variables para

determinar el nivel de dependencia entre ellos. Con la prueba Chi-Cuadrado, CHAID

determina qué atributo es el más relevante para la clase a predecir. Esta característica lo

diferencia de otros algoritmos utilizados en árboles de decisión como las familias ID3 y

CART, que utilizan ya sea el aumento de la información o el índice de Gini para elegir el

atributo óptimo de división. CHAID también utiliza Chi-cuadrado para evaluar si un

árbol de decisión debe dejar de crecer para evitar el problema de sobreajuste. Por lo

tanto, para un árbol de decisión CHAID, no hay necesidad de considerar el tema de la

poda de los árboles.

La principal diferencia entre CART y C4.5/SEE5.0 es que CART sólo permite dos

ramas (es decir, dos hijos) para formar en cada proceso de partición, mientras C4.5 /

SEE5.0 puede generar diferentes cantidades de ramas como sea necesario durante el

proceso de inducción. En otras palabras, el árbol de decisión generado por el algoritmo

CART siempre será un árbol binario[46].

Los bosques aleatorios se basan en el desarrollo de muchos árboles de clasificación, donde

para clasificar un nuevo objeto desde un vector de entrada, se ubica dicho vector bajo

cada uno de los árboles del bosque, posteriormente cada árbol genera una clasificación, es

decir cada árbol “vota” por una clase. Al final el bosque escoge la clasificación teniendo

en cuenta el árbol más votado sobre todos los del bosque. Cada árbol se desarrolla

teniendo en cuenta tres aspectos básicos, lo primero es que si el número de casos en el

conjunto de entrenamiento es , prueba casos aleatoriamente, pero con sustitución, de

los datos originales; este será el conjunto de entrenamiento para el desarrollo del árbol.

Lo segundo es que si hay variables de entrada, un número es especificado

para cada nodo, m variables son seleccionadas aleatoriamente del conjunto y la mejor

partición de este m es usada para dividir el nodo; el valor de m se mantiene constante

durante el crecimiento del bosque. Lo tercero y último es que cada árbol crece de la

forma más extensa posible, sin ningún tipo de poda[3].

Los bosques consisten en una combinación de árboles de decisión donde cada clasificador

se genera utilizando un vector aleatorio de muestras independientemente del conjunto de

29

vectores de entrenamiento de entrada, y cada árbol emite un voto para la clase más

popular en cada ubicación dado un vector de entrada. La técnica para la generación de

un bosque aleatorio es generalmente una combinación de los métodos aleatorios de

subespacio y de bagging. Bagging es una técnica para mejorar la precisión de la

clasificación y evitar sobreajuste. Dado un conjunto de entrenamiento de tamaño ,

bagging genera un número de nuevos conjuntos de entrenamiento cada uno de tamaño

(donde ) extrayendo aleatoriamente muestras con reemplazo del conjunto de

entrenamiento inicial. También se supone que los datos contienen atributos (por

ejemplo, bandas espectrales). Para cada nodo del árbol, ( ) atributos son

elegidos aleatoriamente para proporcionar la base para el cálculo de la mejor partición en

ese nodo. Una vez formado el bosque aleatorio, cada muestra se clasifica en una clase

tomando los votos más populares de todos los predictores de los árboles en el bosque. La

técnica de los bosques aleatorios tiene varias ventajas: (a) su precisión es tan buena

como la del algoritmo Adaboost3 y a veces mejor, (b) es relativamente robusto a los

valores atípicos y al ruido, (c) es más rápido que otros métodos como bagging, (d)

muestra las estimaciones internas útiles del error, la fuerza, la correlación y la

importancia de la variable y (e) es muy sencillo y de fácil parametrización[2].

Las RNA se pueden definir como modelos matemáticos inspirados en sistemas biológicos,

adaptados y simulados en computadoras convencionales[9]. Una RNA es una estructura

compuesta de un número de unidades interconectadas (neuronas artificiales). Cada

unidad posee una característica de entrada/salida e implementa una computación local o

función. La salida de cualquier unidad está determinada por su característica de

entrada/salida, su interconexión con otras unidades y de sus entradas externas. Sin

embargo la red desarrolla usualmente una funcionalidad general a través de una o más

formas de entrenamiento[10].

Las actividades de investigación desarrolladas en torno al estudio de las RNA, están

motivadas en modelar la forma de procesamiento de la información en sistemas nerviosos

biológicos. Especialmente, por la forma de funcionamiento del cerebro humano, que es

completamente distinta al funcionamiento de un computador digital convencional. El

cerebro humano corresponde al de un sistema altamente complejo, no-lineal y paralelo.

En términos sencillos lo anterior equivale a decir que puede realizar muchas operaciones

simultáneamente a diferencia de los computadores comunes que son de tipo secuencial, o

3 Algoritmo que pertenece a los métodos Boosting de las redes neuronales artificiales y que propone entrenar

iterativamente una serie de clasificadores base, de tal modo que cada nuevo clasificador preste mayor atención a los

datos clasificados erróneamente por los clasificadores anteriores, y combinarlos de tal modo que se obtenga un

clasificador con elevadas prestaciones.

30

sea, realizan sólo una operación a la vez. En este sentido, una RNA es un procesador de

información, de distribución altamente paralela, constituido por muchas unidades

sencillas de procesamiento llamadas neuronas[47].

Las RNA se caracterizan principalmente por: (1) tener una inclinación natural a adquirir

el conocimiento a través de la experiencia, el cual es almacenado, al igual que en el

cerebro, en el peso relativo de las conexiones interneuronales; (2) tienen una altísima

plasticidad y gran adaptabilidad, son capaces de cambiar dinámicamente junto con el

medio; (3) poseen un alto nivel de tolerancia a fallas, es decir, pueden sufrir un daño

considerable y continuar teniendo un buen comportamiento, al igual como ocurre en los

sistemas biológicos; y (4) tener un comportamiento altamente no-lineal, lo que les

permite procesar información procedente de otros fenómenos no-lineales[47].

Entre las motivaciones principales para el estudio del funcionamiento de las redes

neuronales se encuentran los fenómenos neurológicos. El cerebro humano es un

procesador de información muchísimo más eficiente que un computador. La clave de esto

se encuentra en la inmensa plasticidad del cerebro, existen tareas cotidianas para el

cerebro que sería impensable realizar mediante computación tradicional[47].

En la actualidad, tareas mucho más simples consumen días de trabajo de los

computadores más veloces. La plasticidad se percibe también en la capacidad de

responder de forma correcta frente a un estímulo nunca antes recibido. Debido a estas

características y muchas otras, las RNA se han convertido en una gran ayuda en el

procesamiento de datos experimentales de comportamiento complejo. Además, su

comportamiento iterativo no lineal las une de modo natural al caos y teorías de la

complejidad[47].

Las RNA, se han utilizado cada vez más en teledetección durante los últimos diez años,

principalmente para la clasificación de imágenes. Una ventaja de las redes neuronales se

encuentra en la alta tasa de cómputo alcanzado por su paralelismo masivo, esto como

resultado de una densa disposición de interconexiones (pesos) y procesadores simples

(neuronas), que permite el procesamiento en tiempo real de conjuntos de datos muy

grandes[2].

Las redes neuronales artificiales se describen generalmente como no paramétricas, es

decir, el uso de una red neuronal no requiere ninguna suposición sobre la distribución

estadística de los datos. El rendimiento de una red neuronal depende significativamente

de lo bien que ha sido entrenada y no del cumplimiento de los supuestos asociados a la

31

distribución estadística de los datos, como sí ocurre en el caso del clasificador máxima

verosimilitud. Durante la fase de entrenamiento, la red neuronal "aprende" sobre

regularidades presentes en los datos de entrenamiento y a partir de estas regularidades,

construye reglas que se pueden extender a los datos desconocidos. Esta es una habilidad

especial de todas las redes neuronales. Sin embargo, el usuario debe determinar la

arquitectura de la red y también definir parámetros tales como la tasa de aprendizaje, lo

que afecta el tiempo de entrenamiento, el rendimiento y la tasa de convergencia de una

red neuronal. No hay reglas claras para ayudar en el diseño de la red y sólo existen

reglas heurística para guiar a los usuarios en la elección de los parámetros de red[2].

Existen varios tipos de arquitectura fundamental para una red neuronal, dentro de las

cuales están la perceptrón multicapa (MLP) con retropropagación de errores, los mapas

de características auto-organizado de Kohonen (SOM), redes contra- propagación, las

redes de Hopfield y la red de resonancia adaptativa (ART)[2].

Las redes MLP utilizando el algoritmo de aprendizaje de retropropagación [48] es uno de

los modelos más ampliamente utilizados. La (Figura 4a) muestra una red neuronal MLP

de tres capas, la capa que se encuentra más a la izquierda de la neurona es la capa de

entrada y contiene el conjunto de neuronas que reciben entradas externas, para el caso

de estudio de este trabajo esas entradas se reciben en forma de valores de píxel en el

diferentes bandas de una imagen multiespectral u otros valores de características. La

capa de entrada no realiza ningún cálculo, a diferencia de los elementos de las otras

capas. La capa central es la capa oculta (puede haber más de una capa oculta en redes

complejas). La capa que se encuentra más a la derecha de las neuronas es la capa de

salida, que produce los resultados de la clasificación. No hay interconexiones entre las

neuronas de la misma capa, pero todas las neuronas de una capa dada están

completamente conectadas a las neuronas de las capas contiguas. Estas interconexiones

asocian pesos numéricos , los cuales se ajustan durante la fase de aprendizaje. El

valor que tienen cada neurona se llama actividad y se denotará como (Figura 4b)[2].

32

Figura 4. Red neuronal perceptrón multicapa de tres capas[2]

El algoritmo más utilizado para realizar la actualización de las actividades neuronales y

los pesos de interconexión en una arquitectura MLP es el algoritmo de propagación hacia

atrás. La propagación hacia atrás empleada para llevar a cabo la modificación del estado

neuronal, implica dos pasos denominados propagación hacia adelante y propagación

hacia atrás. Durante el entrenamiento, cada muestra se introducen en la capa de entrada

y las actividades de las neuronas son secuencialmente actualizadas desde la capa de

entrada hasta la capa de salida en términos de alguna función de mapeo. Una vez que el

avance hacia adelante está terminado, las actividades de la salida de las neuronas son

comparadas con las actividades esperadas. Excepto en circunstancias muy inusuales, las

salidas reales serán diferentes a los resultados esperados y las diferencias son el error de

la red. Este error se distribuye a través la red por medio de una propagación hacia atrás

desde la capa de salida, con esto se actualizan los pesos. Los pasos hacia adelante y hacia

atrás continúan hasta que la red aprende las características de todas las clases. Este

procedimiento se llama formación la red[2].

Durante el proceso de propagación hacia adelante, las actividades de las neuronas se

actualizan capa por capa secuencialmente, desde la capa de entrada hasta la capa de

salida, con el fin de generar una salida en la forma de las activaciones de las neuronas

que se encuentran en la capa de salida[2].

Sea la entrada total recibida por la neurona j, que se representa por:

∑ (31)

donde es la actividad de la neurona , y es el peso de la conexión de la neurona

a la j-ésima neurona. Una vez que el valor de es calculado, este es convertido a un

33

valor de salida (para la transmisión a la siguiente capa si la neurona se encuentra en una

capa intermedia) utilizando una función de mapeo. La función sigmoidea es la función de

mapeo que se elige más comúnmente (Tabla 2). Es una función no lineal monótonamente

creciente y está definida por[2]:

( )

( )

(32)

es un parámetro denominado temperatura (normalmente , hace que la curva

sigmoidal sea más abrupta ( ) o gradual ( ). Después de calcular la actividad

de cada neurona dentro de la misma capa, un proceso similar se lleva a cabo en la

siguiente capa adyacente. Hay que tener en cuenta que la capa de entrada es un caso

especial debido a que las neuronas en ésta, toman los valores proporcionados por la

muestra de entrenamiento. Para los nodos de la capa de entrada, la actividad de la

neurona j se encuentra justo como la j-ésima componente del vector de patrón de

entrada[2].

La función que se ha introducido como función de mapeo suele ser llamada por otros

autores función de activación o función de transferencia. Esta función de activación es la

encargada de transformar el valor de la entrada neta en el valor de salida del nodo[49].

Retomando la analogía con el caso biológico, una neurona biológica puede estar activa

(excitada) o inactiva (no excitada); es decir, que tiene un “estado de activación”. Las

neuronas artificiales también tienen diferentes estados de activación; algunas de ellas

solamente dos, al igual que las biológicas, pero otras pueden tomar cualquier valor

dentro de un conjunto determinado. Para explicar porque se utilizan estas funciones de

activación se suele emplear la analogía a la aceleración de un automóvil. Cuando un auto

inicia su movimiento necesita una potencia elevada para comenzar a acelerar. Pero al ir

tomando velocidad, este demanda un menor incremento de dicha potencia para mantener

la aceleración. Al llegar a altas velocidades, nuevamente un amplio incremento en la

potencia es necesario para obtener una pequeña ganancia de velocidad. En resumen, en

ambos extremos del rango de aceleración de un automóvil se demanda una mayor

potencia para la aceleración que en la mitad de dicho rango[50].

Las funciones de activación se clasifican en lineales y no lineales, dentro de las más

empleadas se encuentra la función identidad que es lineal y dentro de las no lineales

están la gaussiana, la sinusoidal y las sigmoideas como la función tangente hiperbólica o

34

la logística. Estas dos últimas se consideran sigmoidales porque sus curvas son suaves y

asintóticas[51], ambas funciones de activación son continuas y diferenciables.

Una propiedad que deben tener las funciones de activación es que deben ser

diferenciables. El requisito de trabajar con funciones diferenciables puede venir impuesto

por la regla de aprendizaje, como sucede con la regla de retropropagación del error

(backpropagation). La función de activación se suele considerar determinista y en la

mayor parte de los modelos es monótona creciente y continua[2].

La forma de las funciones de activación más empleadas en las redes neuronales

artificiales se muestra en la Tabla 2:

Tabla 2. Algunas funciones de activación más empleadas [52]

Función Rango Gráfica

Identidad [ ]

Escalón ( ) ( )

{ } { }

Lineal a tramos {

[ ]

Sigmoidea

( )

[ ] [ ]

Gaussiana [ ]

Sinusoidal ( ) [ ]

En general, la función de activación que se selecciona para diversas aplicaciones es una

de las sigmoideas, aunque es posible utilizar otra función dependiendo de la naturaleza

de los datos y siempre y cuando se cumplan las características mencionadas con

anterioridad. Si en una red multicapa existen varios niveles o capas, la función de

35

activación debe ser no lineal, ya que de no ser así una red con varios niveles equivaldría

a una red con un nivel[2].

Figura 5. (a) La forma de la curva sigmoidal varía con el parámetro T. (b) La ubicación de la función sigmoide ha

cambiado después de que se suma o se resta sesgo [2]

A veces, una neurona adicional, llamada el sesgo, se añade a la red neuronal. Esta se

enlaza a todas las capas de la red, excepto la capa de entrada. Esta unidad de sesgo

tiene una actividad constante de 1, pero afecta a cada neurona j a través de diferentes

valores de peso. Si se introduce la unidad de sesgo, la ecuación que define a se

modifica de la siguiente manera:

∑ (33)

donde es el sesgo asociado a la neurona j. El efecto del sesgo , en la expresión es

contribuir en el desplazamiento de la función sigmoide de mapeo a la izquierda o hacia la

derecha, como se muestra en la (Figura 5b), dependiendo de si el valor es negativo o

positivo. Se cree que insertar la una unidad de sesgo a la red mejora la propiedad de

convergencia de una red neuronal MLP. En la propagación hacia atrás, los pesos

intermedios se modifican desde la capa de salida hasta la capa de entrada. El objetivo de

la actualización de peso es reducir el error de identificación de la red. En general, se

aplica el criterio de minimizar el error medio cuadrático[2].

3.3. La regresión-kriging en la clasificación de imágenes

satelitales

A continuación se presenta una revisión de la regresión-kriging y algunas consideraciones

relacionadas con kriging universal y kriging con deriva externa.

36

3.3.1. El mejor estimador lineal insesgado (MELI) para datos

espaciales

Retomando conceptos presentados en el Capítulo 1, en el enfoque geoestadístico clásico,

las predicciones se hacen comúnmente mediante el cálculo de algunos promedios

ponderados de las observaciones:

( ) ∑ ( )

(34)

donde ( ) es el valor predicho de la variable de objetivo en una ubicación desconocida

, los datos de la muestra están dados por ( ) ( ) ( ). Los pesos se

obtienen de manera que la varianza de error de predicción se reduce al mínimo,

considerando que los pesos dependen de la estructura de autocorrelación espacial de la

variable. Esto fue lo que se definió previamente como kriging ordinario[53].

Matheron[54] propuso que el valor de una variable objetivo en alguna ubicación puede

ser modelado como una suma de los componentes determinístico y estocástico:

( ) ( ) ( ) (35)

A esto lo denominó modelo universal de la variación espacial, en el cual tanto la

componente determinista como la estocástica de la variación espacial pueden ser

modeladas por separado.

Con base en lo anterior surge una alternativa al método kriging, es el enfoque de

regresión, que hace predicciones modelando la relación entre las variables objetivo y

auxiliares en las ubicaciones muestreadas, y aplicando el modelo en ubicaciones

desconocidas utilizando el valor conocido de las variables auxiliares en esos lugares[55].

Comúnmente los predictores auxiliares son parámetros de la superficie de la tierra,

imágenes de teledetección, y geológica, el suelo y mapas de uso del suelo[56]. Un enfoque

común de regresión es la regresión lineal múltiple, donde la predicción es de nuevo una

media ponderada, esta vez de los predictores:

( ) ∑ ( ) ( )

(36)

https://en.wikipedia.org/wiki/Deterministic_system

37

donde ( ) son los valores de las variables auxiliares en la ubicación objetivo, son

los coeficientes de regresión estimados y es el número de predictores o variables

auxiliares[57, 58].

Figura 6. Ejemplo esquemático del concepto de regresión-kriging[59]

La regresión-kriging combina estos dos enfoques: la regresión se utiliza para ajustar la

variación objetivo, esto es la variación explicada, y kriging simple con valor esperado 0

se utiliza para ajustar los residuos, es decir, la variación no explicada[60]. En otras

palabras la regresión resuelve los coeficientes del modelo de deriva o tendencia, mientras

que los residuos son interpolados con un método kriging, para ser añadidos a la deriva

del modelo; aquí, la dificultad es la obtención de coeficientes de regresión imparciales en

presencia de auto-correlación espacial de los residuos:

( ) ( ) ( ) ∑ ( ) ∑ ( )

(37)

donde ( ) es la deriva ajustada, ( ) es la interpolación residual, son los

coeficientes ajustados del modelo de deriva ( es el intercepto estimado), son pesos

kriging determinados por la estructura de dependencia espacial de los residuales y ( ) es

el residual en la ubicación [16]. Los coeficientes de regresión pueden estimarse a

partir de la muestra por algún método apropiado, por ejemplo, mínimos cuadrados

ordinarios (MCO) o, de manera óptima, utilizando mínimos cuadrados

generalizados (MCG), para tomar la correlación espacial entre las observaciones

individuales en cuenta:

( ) (38)

[ ( ) ( )

( ) ( )

]

https://en.wikipedia.org/wiki/Ordinary_least_squares

https://en.wikipedia.org/wiki/Ordinary_least_squares

https://en.wikipedia.org/wiki/Generalized_least_squares

https://en.wikipedia.org/wiki/Generalized_least_squares

38

donde es el vector de coeficientes de regresión estimados, es la matriz de

covarianza de los residuales, es una matriz de predictores en las ubicaciones

muestreadas, y es el vector de valores de medición de la variable de objetivo[16]. Una

vez la tendencia ha sido estimada, los residuos se interpolan con kriging y se añaden a la

tendencia estimada. En notación matricial, esto se escribe como:

( )

( ) (39)

donde ( ) es el valor predicho en la ubicación , es el vector de predictores de

orden y es el vector de pesos kriging utilizados para interpolar los

residuos[61]. La (Ec. 39), en términos estadísticos, es el MELI[62].

La estimación de los residuos es un proceso iterativo: en primer lugar el modelo de

deriva es estimado usando mínimos cuadrados ordinarios (MCO); a continuación, la

función de covarianza de los residuales se utiliza para obtener los coeficientes de MCG;

éstos se pueden utilizar para volver a calcular residuales y así sucesivamente[63].

Aunque muchos expertos recomiendan como este proceso iterativo como el más

adecuado, Kitanidis[64] mostró que el uso de la función de covarianza derivado de los

residuos MCO (es decir, una única iteración) es a menudo satisfactorio, ya que no es lo

suficientemente diferente de la función derivada después de varias iteraciones para

afectar la interpolación kriging.

La relación de adición de la ecuación (Ec. 37) se extiende a las varianzas también. Por lo

tanto, el error de predicción es la suma de error de predicción del error de deriva y el

kriging de los residuos. El error está dado entonces por:

( ) { ( )} { ( )} (40)

donde { ( )} es el error de predicción de la deriva y { ( )} es la varianza obtenida

al aplicar el método kriging sobre los residuos[65]. La (Ec. 40) también puede ser

llamada como la varianza compuesta. Si los coeficientes del modelo de deriva se estiman

utilizando MCO, la covarianza entre los residuos y la deriva estimada se supone que es

cero. Por lo tanto, la varianza compuesta se puede calcular usando:

( ) ( )

⏟ { ( )}

( ) ⏟

{ ( )}

(41)

39

donde es el vector de predictores en lugar no observado y es el vector de

covarianza en la nueva ubicación:

{ ( ) ( )} (42)

Esta es una solución sub-óptima ya que la estimación MCO debe ser sustituida por la

estimación MCG de la deriva para obtener una estimación insesgada de coeficientes. En

el caso de la estimación vía MCG, utilizamos los residuos para estimar los coeficientes de

deriva y por lo tanto la covarianza entre la deriva estimada y los es diferente de cero.

Una fórmula utilizada comúnmente para calcular la varianza del error de predicción,

tanto para la deriva como para los residuos, y dar cuenta de covarianza entre la

estimación de deriva y residuales es la varianza del kriging universal[16]

( ) ( )

( ) ( ) ( ) (43)

La (Ec. 43) se parece mucho a la (Ec. 41), excepto que dará valores ligeramente, más

bajos[63].

La varianza del kriging universal es, de hecho, presentada como la varianza de predicción

del error [66]

( ) ⟨{ ( ) ( )}

⟩ { ( )} { ( ) ( )} { ( )} (44)

( ) ( )

(45)

Siendo es:

[ ( ) (

)] (46)

El supuesto asumido por la regresión-kriging es que no hay dependencia espacial entre la

variable auxiliar y los residuales de la regresión lineal de la variable a predecir sobre la

variable auxiliar en el mismo punto[67]. La varianza del kriging universal es igual a la

varianza del error de predicción de un modelo de regresión si no hay correlación espacial

entre los residuos (efecto pepita puro). Por lo tanto, puede ser reducir a la matriz

identidad:

[

] ( ) (47)

40

y es el vector cero, por lo tanto la varianza de kriging universal se reduce a:

( ) ( )

(

)

(48)

( ) ( ) ( )

( ) (49)

y siendo ( ) ( ) , la varianza del kriging universal se reduce a:

( ) [

( ) ] (50)

que es igual al error de predicción alrededor de la línea de regresión[68].

La expresión { ( )} en la (Ec. 41), en términos de regresión lineal, es equivalente a la

curvatura ponderada de los intervalos de confianza de todo el hiperplano de regresión.

En el caso multivariado, el error de regresión en todo el hiperplano de regresión se vería

así:

{ ( )}

∑ ( )

∑ ∑ ( )

(51)

donde es la media ponderada de los valores predichos. Por lo tanto, a partir de la

(Ec. 51) se infiere que la incertidumbre de la predicción aumentará a medida que el

nuevo punto se localiza más lejos de los puntos de observación y geográficamente más

lejos del centro del espacio característico[63].

3.3.2. Kriging universal y kriging con deriva externa

La literatura geoestadística utiliza muchos términos diferentes para lo que son

esencialmente las mismas técnicas o por lo menos muy similares. Todos estos siguen el

modelo de kriging universal que fue introducido por Matheron[54] y que es considerado

por muchos estadísticos como el “único” modelo de datos espaciales MELI[61].

Originalmente, kriging universal fue pensado como un caso generalizado de kriging donde

la tendencia se modela como una función de las coordenadas, dentro del sistema de

kriging. Por lo tanto, muchos autores como Deutsch & Journel[69], Wackernagel[70] y

Papritz & Stein[66] se reservan el término kriging universal para este caso. Si la deriva

se define externamente como una función lineal de algunas variables auxiliares, en lugar

de las coordenadas, se emplea el término kriging con deriva externa (KED)[65, 70]. En el

41

caso del kriging universal o KED, las predicciones se hacen como con kriging, con la

diferencia de que la matriz de covarianza de los residuales es ampliada con los

predictores auxiliares ( ) [71]. Sin embargo, la deriva y los residuos también se

pueden estimar por separado y luego se suman. Este procedimiento fue sugerido por

Ahmed & de Marsily[72] y Odeh et al[73] más tarde lo llamó regresión-kriging, mientras

Goovaerts[74] utiliza el término kriging con modelo de tendencia para referirse a una

familia de interpoladores y se refiere a regresión-kriging como kriging simple con medias

de variación local. El KED y la regresión-kriging difieren en los pasos de cálculo

utilizados, sin embargo, las predicciones resultantes y las varianzas de predicción son los

mismos, dado el mismo conjunto de puntos, las variables auxiliares, forma funcional de

la regresión, y método de ajuste de regresión[60].

Aunque el KED parece, a primera vista, ser computacionalmente más sencillo que la

regresión-kriging, los parámetros de variograma para KED también deben ser estimados

a partir de residuos de la regresión, por lo que requiere una etapa de modelado de

regresión por separado. Esta regresión debe ser GLS debido a la probable correlación

espacial entre los residuos. Muchos analistas emplean en su lugar los residuos MCO, que

pueden no diferir mucho de los residuos de GLS[75]. Sin embargo, estos no son óptimos

si existe alguna correlación espacial, y de hecho puede ser muy diferente en el caso si los

puntos del conglomerado de muestra estan altamente correlacionados. Otra limitación

del KED es la inestabilidad de la matriz extendida en el caso de que la covariable no

varié suavemente en el espacio[74]. La regresión-kriging tiene la ventaja de que separa

explícitamente la estimación de la tendencia de la interpolación residual, lo que permite

el uso de formas de regresión arbitrariamente complejas, en lugar de las técnicas lineales

simples que se pueden utilizar con KED. Además, permite la interpretación separada de

los dos componentes interpolados. La regresión-kriging es entonces es un sinónimo más

descriptivo del mismo método de interpolación genérico[60]. Por estas razones algunos

autores prefieren el uso del término regresión-kriging sobre kriging universal.

Algunos estudiosos de los temas geoestadísticos creen que sólo hay un modelo para datos

espaciales que proporciona el MELI, de la que todas las otras técnicas (lineal) se pueden

derivar[61, 76, 77], por ejemplo la regresión-kriging sería este modelo y otras técnicas

tales como kriging ordinario, un promedio de los valores por polígonos o interpolación de

distancia inversa ponderada (IDW) por sus siglas en inglés, pueden ser vistos como sus

casos especiales. Si los residuos no muestran auto-correlación espacial (efecto pepita

puro), la regresión-kriging converge a la regresión lineal múltiple clásica, debido a que la

matriz de covarianza se convierte en una matriz de identidad[60].

42

Del mismo modo, si la variable de objetivo no muestra correlación con los predictores

auxiliares, el modelo de regresión-kriging se reduce a modelo kriging ordinario, porque la

parte determinista es igual al valor medio (global). [60], Por lo tanto, el kriging clásico y

la regresión clásica pueden ser considerados como casos especiales de regresión-kriging[60,

63].

Entendiendo que la mayoría de los modelos de predicción espacial lineales están

conectados de alguna manera, es posible empezar por probar la técnica más genérica y

hasta encontrar la técnica más adecuada para el caso de estudio. Pebesma[78], por

ejemplo, implementó una estructura de este tipo anidado, un usuario puede cambiar

entre una y otra técnica siguiendo un árbol de decisión que se muestra en el Diagrama 2.

Siguiendo este árbol lo primero sería comprobar si el modelo determinístico está definido,

en caso de que no se puede tratar de correlacionar las variables incluidas en la muestra

con los factores ambientales. Si los factores ambientales tienen una correlación

significativa, es posible ajustar un modelo de regresión lineal múltiple y luego analizar la

autocorrelación espacial de los residuos. Si los residuos no muestran autocorrelación

espacial (efecto pepita puro), se procede a la estimación por MCO de los coeficientes de

regresión. De lo contrario, si los residuos muestran auto-correlación espacial, se realizaría

una regresión-kriging[59].

Figura 7. Un árbol de decisión general para seleccionar el modelo de predicción espacial adecuada en base a los

resultados de la estimación del modelo[59].

43

Si los datos no muestran correlación con factores ambientales, entonces todavía se puede

analizar el semivariograma de la variable de objetivo. Esta vez, también podría

considerar el modelado de la anisotropía. Si logra ajustarse un semivariograma diferente

del efecto pepita puro, entonces sería apropiado hacer kriging ordinario. De lo contrario,

si sólo se puede ajustar un semivariograma lineal, entonces simplemente se utilizaría

algún interpolador determinístico, como el método IDW. Si el semivariograma de la

variable objetivo no muestra auto-correlación espacial, y ninguna correlación con factores

ambientales, lo correcto sería emplear un modelo de media global para toda la zona[59].

3.3.3. Predicción Espacial para variables categóricas

Aunque la geoestadística se emplea principalmente para trabajar con las variables

continuas, también se puede utilizar para predecir diversos tipos de variables categóricas

o de tipo de clase. El análisis geoestadístico de variables categóricas es más conocido

como geoestadística indicadora[79]. En la práctica, los cálculos que requiere el kriging

indicador no suelen ser sencillos, lo que probablemente explica por qué no hay muchas

aplicaciones de mapeo geoestadístico relacionadas con variables categóricas[80]. Por

ejemplo, normalmente será difícil ajustar semivariogramas para las clases de menos

frecuencia y que se presentan en lugares aislados (Figura 8d).

Figura 8. Dificultades para predecir los datos de clase punto (b) y (d), en comparación con las variables cuantitativas

(a) y (c), es que la clase-interpoladores son típicamente más complejo y computacionalmente más tiempo[59].

Papritz[81] reconoce varias dificultades conceptuales al trabajar con los datos de tipo

indicador: (1) el modelado inconsistente del semivariograma indicador, y (2) el uso de

semivariogramas globales que conduce a predicciones sesgadas debido a que los residuos

son, por definición, no estacionarios. Cualquier intento de utilizar kriging indicador para

44

datos con una tendencia aparente, ya sea explícita o implícitamente mediante el uso de

un kriging indicador ordinario dentro de un vecindario, requiere modelar la no

estacionariedad en los semivariogramas indicadores para garantizar que el error medio

cuadrático de kriging sea óptimo. La regresión-kriging indicadora sin ninguna

transformación también ha sido criticada porque el modelo (variable binomial) sugiere

que los residuos tienen varianza media-dependiente ( ( )), y por lo tanto el uso de

un solo semivariograma para el conjunto completo de residuos no va en línea con la

teoría[81].

Denótense las observaciones de campo de una variable de tipo clase como

( ) ( ) ( ), donde son categorías discretas (o estados) y es el

número total de clases. Una técnica que estima la clase desconocida en una ubicación

determinada ( ), dado el conjunto de datos de punto de entrada

( ( ) ( ) ( )), puede ser llamado interpolador tipo de clase. Si espacialmente

los predictores (donde es el número de predictores) están disponibles, estos

pueden ser utilizados para mapear cada categoría sobre el área de interés. Hasta el

momento, hay un número limitado de técnicas que puedan lograr esto:

Cokriging Multi-indicador: El básico kriging multi-indicador también se puede

extender a un caso en el que se utilizan varios covariables para mejorar las

predicciones. Esta técnica se conoce con el nombre de cokriging indicador[82].

Aunque la teoría matemática está bien explicada por Bierkens & Burrough[79],

Goovaerts[74] y Pardo-Igúzquiza & Dowd[83], la aplicación es engorrosa pues es

necesario ajustar un gran número de funciones de covarianza cruzadas.

Regresión multinomial log-lineal: Esta es una generalización de la regresión

logística para situaciones en las que hay varias clases de una variable objetivo[84].

Cada clase tiene un conjunto separado de coeficientes de regresión ( ). Debido a

que los valores observados son iguales a 0 o 1, los coeficientes de regresión deben

resolverse a través de un algoritmo iterativo de máxima verosimilitud[85], esto

hace que todo el método sea un poco más exigente computacionalmente que una

simple regresión múltiple.

Regresión-kriging de indicadores: Un enfoque para interpolar las variables

categóricas es primero asignar membresías a puntos observados y luego interpolar

cada membresía por separado. Este enfoque fue elaborado por primera vez por De

Gruijter et al[86] y luego aplicado por Bragato[87] y Triantafilis et al[88]. Una

45

alternativa hacer un mapeo sencillo pero descriptivas, determinar distancias y

luego clasificarlo por píxel en un SIG[89].

En el caso de la regresión logística, la probabilidad de observar una clase ( ) en nuevas

ubicaciones se calcula como:

( ) [ (

)] (52)

donde ( ) son las probabilidades estimadas para la clase ( ) en una nueva ubicación

y es el número de clases. La regresión logística multinomial se puede extender

también a la regresión-kriging. Esto significa que el modelo de regresión se complementa

con el modelado de semivariogramas para residuos de la regresión, que luego de ser

interpolada y se añade de nuevo a la estimación de regresión. Así que las predicciones se

obtienen mediante[59]:

( ) [ (

)]

( ) (53)

donde son los residuos interpolados. La extensión de la regresión multinomial a la

regresión-kriging no es tan simple como parece. Esto se debe a los valores estimados en

nuevas ubicaciones en la (Ec. 53) están limitados dentro de un rango indicador, lo que

significa que la interpolación de los residuos puede dar lugar a valores fuera del rango

físico (<0 o >1). Una solución a este problema es predecir la parte tendencia en el

espacio transformado, luego interpolar los residuos, sumar la tendencia y parte residual y

volver a transformar los valores[59].

Hengl et al[90] muestran que la membresía ( ), en lugar de los indicadores, son más

adecuados tanto para la regresión y el modelamiento geoestadístico, hecho que ha sido

confirmado por otros autores como McBratney et al[91], De Gruijter et al[86];.

Triantafilis et al[88]. Las membresías pueden ser linealizadas directamente a través de la

transformación logit:

(

) (54)

donde son los valores de membresía utilizadas como entrada a la interpolación. Luego

todos los valores ajustados estarán dentro de un rango físico (0-1). Las predicciones de la

membresía para la clase en nuevas ubicaciones son obtenidas utilizando el modelo

estándar de regresión-kriging:

46

( )

(

) (55)

Después los valores interpolados pueden volver a transformarse al rango de la membresía

utilizando[92]:

( )

( )

( )

(56)

En el caso de la regresión-kriging de membresías, tanto la dependencia espacial como la

correlación con los predictores se modelan de una manera estadísticamente sofisticada.

Además, la regresión-kriging de membresías permite el ajuste de cada clase por separado,

lo que facilita la comprensión de la distribución de las variables y la identificación de las

clases problemáticas, es decir, clases que no están correlacionados con los predictores o

no muestran ninguna autocorrelación espacial, etc[59].

La predicción espacial de la membresía puede ser excesiva en tiempo de cálculo. Otro

problema es que, si las clases interpoladas (probabilidades, membresías) son ajustadas

solamente usando los datos de la muestra, las predicciones de las

probabilidades/membresías no serán sumadas a la unidad en nuevas ubicaciones. En este

caso, es necesario estandarizar los valores de cada nodo de la red por medio dividiendo

los valores originales por la suma de las probabilidades/membresías para garantizar que

estos se suman la unidad, que es una solución ad-hoc. Un algoritmo, tal como la

composición de regresión-kriging tendría que ser desarrollado[59].

47

4. Antecedentes

El tema de la clasificación de imágenes obtenidas mediante sensores remotos, ha sido

ampliamente abordado por diversos autores. Desde el enfoque de los métodos empleados

usualmente en la clasificación, habla Lizarazo [37] sobre la existencia de trabajos que han

evaluado el desempeño de los clasificadores estadísticos convencionales frente al

desempeño de métodos no convencionales como el que propone este trabajo, algunos

autores son Paola & Schowengerdt [93] y Fitzgerald & Lees[94]. En otros trabajos se han

propuesto métodos para mejorar el desempeño y confiabilidad de los métodos no

convencionales, algunos autores son German[95], Kanellopoulos & Wilkinson [96] y

Gahegan & West[97]. Aunque estos métodos para la clasificación de la cobertura y el uso

del suelo han sido usados más ampliamente en imágenes que cubren zonas rurales[2],

también se han realizado aplicaciones en zonas urbanas[98-100], en cuanto a esto último

es importante destacar que la clasificación de la cobertura del suelo urbano usando

bandas espectrales es un asunto complejo debido a que las diferentes clases se

superponen en el espacio espectral[37].

Toro & Lizarazo [101] realizaron una evaluación de las RNA MLP y Fuzzy-Artmap en la

clasificación de imágenes satelitales, en dicho trabajo reportaron una comparación

cuantitativa y cualitativa del desempeño de las RNA MLP y Fuzzy-Artmap para

clasificación de coberturas del suelo a partir de imágenes satelitales multiespectrales y

concluyeron que los dos modelos de redes neuronales aplicados en este estudio son

clasificadores que ofrecen resultados de calidad adecuada para procesos de clasificación

de coberturas del suelo sobre imágenes de satélite multiespectrales, finalmente indican

que en el análisis cuantitativo la RNA MLP alcanza un mejor resultado. Zhang & Foody

[102] proponen dos enfoques para la clasificación de una imagen satelital mediante

algoritmos difusos, uno con enfoque estadístico basado en un algoritmo de fuzzy

clustering c-means modificado, realizado en un modo supervisado y un enfoque basado

en redes neuronales artificiales; en este mismo estudio también se aborda algunos temas

asociados al método kriging indicador. Lizarazo [37] presenta una comparación del

funcionamiento y de las capacidades de dos algoritmos de IA, retro-propagación (RNA)

y árboles de decisión, que representan métodos alternativos para la clasificación digital

de imágenes de sensores remotos frente a los algoritmos estadísticos convencionales. En

particular, se muestran las ventajas y limitaciones de las nuevas técnicas, teniendo en

cuenta conceptos teóricos al igual que la evaluación de los resultados obtenidos en su

48

aplicación en la clasificación de cobertura y uso del suelo en una zona piloto de la ciudad

de Bogotá, Colombia. Rodríguez [103] presenta el análisis hecho a un conjunto de datos

que representan diferentes imágenes, clasificadas como: Tierra roja, Cosecha de algodón,

Tierra gris, Tierra gris húmeda, Tierra con vegetación, Cada terreno gris húmedo. El

artículo se estructura en: una introducción en la cual se destaca la importancia del

modelo de los SOM y la ART2 para la clasificación de imágenes; descripción de los

algoritmos utilizados por las dos redes neuronales artificiales en mención; información

relevante al problema; uso de las redes SOM y ART2 en la clasificación de imágenes

satelitales; y planteamiento de conclusiones y trabajos futuros.

Por otra parte Atkinson & Tatnall [104] presentan un trabajo que se ocupa

específicamente del uso de redes neuronales en la teledetección, haciendo énfasis en las

RNA MLP feed-forward, indican que las aplicaciones más comunes de las redes

neuronales en la teledetección están en la clasificación de la tierra y las nubes. En este

mismo trabajo los autores hacen algunas referencias a publicaciones anteriores de

Howald[105], McClelland [106], Hepner [107] y Downey [108] indicando que todos

aplican algoritmos de redes neuronales en la clasificación de cobertura de la tierra a

partir de imágenes Landsat Thematic Mapper (TM) y todos encuentran en diferentes

grados que el enfoque neuronal era más preciso que la clasificación estadística

tradicional. Kanellopoulos [96] llevaron a cabo un experimento para estimar veinte clases

de cobertura terrestre en imágenes SPOT de Alta Resolución Visible (HRV),

encontrando de nuevo que el enfoque neural fue más preciso. Decatur [109] aplica redes

neuronales para clasificar cobertura a partir de imágenes de radar (SAR) de apertura

sintética, Ersoy & Hong [110] aplicaron una red jerárquica de clasificación a las

imágenes obtenidas mediante el sistema de escáner multiespectral aerotransportado

(MSS), Tewolde & Cabral [111] realizan un análisis y modelamiento del fenómeno de

expansión urbana en la ciudad de Asmara, capital de Eritrea empleando imágenes

satelitales y herramientas geoespaciales para analizar los cambios de uso del suelo urbano

en un contexto espacio-temporal; emplearon una RNA MLP para modelar los mapas de

potencial de transición, los cuales fueron utilizados como insumo para la modelación

'real' urbana con cadenas de Markov, finalmente en contraste con las referencias

anteriores Civco [112] encontró que en ciertas circunstancias las redes neurales fueron en

realidad menos precisos que los métodos estadísticos convencionales para la clasificación

de cobertura de la tierra.

Al interior de la Universidad se han realizado trabajos investigativos que abordan el

tratamiento de imágenes satelitales realizando aplicaciones de la geoestadística y las

redes neuronales artificiales, pero sin realizar una unión entre ellas como la que propone

49

el presente trabajo. Entre algunas tesis desarrolladas dentro de la Maestría en Ciencias

de la Información y las Comunicaciones se encuentra el desarrollo de servicio grid

inteligente de clasificación de imágenes satelitales utilizando redes neuronales

artificiales[24], el desarrollo de un servicio grid para la clasificación no supervisada de

imágenes satelitales aplicando autómatas celulares[113], la elaboración de un modelo de

servicios web para la clasificación de imágenes digitales utilizando rough sets [114] y la

aplicación de algoritmos genéticos a la clasificación de imágenes de satélite en el marco

de los servicios grid inteligentes[115].

También se han desarrollado algunos trabajos de pregrado dentro de los que se pueden

mencionar el desarrollo de un estudio comparativo de topologías feed-forward y los SMO

para la comprensión de imágenes digitales[116], la estimación de información oculta por

nubes y sus sombras en imágenes satelitales empleando métodos geoestadísticos y

determinísticos[23], la implementación de un sistema prototipo para la clasificación del

arazá (Eugenia Stipitata Mc Vaugh) por grado de madurez utilizando redes neuronales

artificiales [117] y la clasificación de imágenes satelitales de alta resolución espacial

aplicando el algoritmo back propagation con la utilización de variables espectrales

texturales y geométricas para la obtención de coberturas y usos del suelo en zonas

urbanas[118].

Las referencias encontradas sobre trabajos donde se apliquen los métodos kriging a la

clasificación de información espacial, particularmente a la clasificación de imágenes

satelitales, se enfocan en la teoría de kriging ordinario, kriging categórico, kriging indicador

y de kriging factorial.

Algunos trabajos de clasificación de imágenes que involucran la aplicación de métodos

geoestadísticos se pueden encontrar en Van Der Meer [119] [120] quien introduce una

nueva técnica de clasificación de imágenes para el análisis de los datos de teledetección

basado en kriging indicador y posteriormente realiza una evaluación de un clasificador

basado en kriging indicador que se propuso en 1992, el cual combina la información

espacial y espectral en un modelo de decisión, el autor demuestra que la incorporación de

continuidad espacial en el proceso de clasificación puede aumentar en gran medida la

exactitud de las clasificaciones realizadas a partir de imágenes. Por otra parte Carvalho,

Soares & Bio [121] proponen una metodología para clasificar cobertura de la superficie

terrestre mediante una metodología geoestadística de la simulación estocástica, conocida

como co-simulación secuencial directa, mediante la combinación de las observaciones de

campo con los datos obtenidos en una clasificación realizada con el algoritmo clásico de

máxima probabilidad, mientras que Van Meirvenne & Goovaerts [122] en su trabajo

50

potencializan la eficiencia de las componentes principales a través de un filtrado de las

componentes empleando kriging Factorial; las componentes que se emplean finalmente en

la clasificación de la imagen son identificadas a partir de variogramas anidados e indican

los autores que el resultado obtenido supera los estudios realizados previamente con las

componentes principales originales.

Dentro de los trabajos previos realizados sobre la aplicación del método regresión-kriging

para clasificar cobertura en imágenes satelitales está el de Eldeiry & García[123], los

objetivos de este estudio son evaluar las mejores combinaciones de bandas para estimar

la salinidad del suelo con cada tipo de cultivo y comparar el método regresión-kriging y

técnicas cokriging cuando se aplica a las imágenes LANDSAT para generar mapas

precisos de salinidad del suelo; este estudio se realizó en un área en la parte sur de la

cuenca del río Arkansas en Colorado. También está el trabajo de Chiang, Liou, Wei

&Cheng[124] donde se propone el método kriging indicador para la clasificación de

imágenes satelitales; el estudio realiza un comparación entre el desempeño de los

métodos kriging indicador, el de máxima verosimilitud, el vecino más cercano y la

máquina de soporte vectorial los cuales se aplicaron para estudiar las áreas dentro de la

cuenca del embalse de Shimen sobre una imagen FORMOSAT-2 y en la ciudad de

Taipei sobre una imagen SPOT 4. Meng[125] aplica la regresión-kriging a la variación

local de la dependencia espacial de la estimación de parámetros de regresión y, como un

interpolador local-espacial híbrido, combina el modelo de regresión estimada con kriging

residual teniendo en cuenta la autocorrelación espacial entre los residuos; el autor emplea

un conjunto de datos proveniente de un mapa de bits de la banda 2 de una imagen

IKONOS que cubre la zona costera situada en el sureste de Camp Lejeune Carolina del

Norte con dos tipos de enfoques de muestreo. En esencia este estudio examina y compara

el rendimiento de la regresión-kriging y la regresión geográficamente ponderada.

Se han realizado otra serie de trabajos sobre clasificación pero ya no asociados al estudio

de uso de cobertura sino de suelo, dentro de estos trabajos está el de Carré &

Girard[126] donde se presenta una metodología para el mapeo de tipos de suelo a partir

de observaciones típicas en una base de datos de suelo, en una zona de La Rochelle, en la

costa del Atlántico medio francés, la principal hipótesis que subyace en el método es que

los tipos de suelo son resultado de factores ambientales tales como la forma de relieve,

material parental, y la cobertura vegetal; en este caso, las capas son atributos del terreno

derivadas de unos modelos digitales de elevación y de cobertura terrestre, atributos

derivados de tres bandas de una imagen SPOT. En este caso los métodos kriging se

aplican sobre los residuales de un mapa de los errores estándar. También Tsendbazar, De

Bruin, Fritz & Herold[127] presentan un estudio que evalúa la precisión espacial de los

51

mapas clasificación global de la tierra más recientes y comparan algunos métodos para la

creación de un mapa de cobertura terrestre mejorada. A partir de conjuntos de datos de

referencia GLOBCOVER-2009, la LC-CCI-2010, MODIS-2010 y mapas GLOBELAND30

se realizó un modelamiento para África, en este trabajo los mapas integrados de

cobertura de terrestres y las clases de probabilidad de la cobertura terrestre se calcularon

utilizando regresión-kriging. Finalmente se encuentran Omuto & Vargas[128] quienes

presentan la técnica de modelado de efectos mixto como una alternativa ingeniosa para

reconocimiento de las agrupaciones de suelo y la consiguiente mejora de la precisión en la

regresión-kriging en este desarrollo. El modelado permite la estimación de una regresión

simultánea para los modelos individuales de un grupo y para los diferentes grupos en el

paisaje; el caso de estudio fue Kenya.

La regresión-kriging también se ha aplicado sobre datos espaciales no provenientes de

sensores remotos, por ejemplo Araki, Yamamoto & Kondo[129] examinaron la aplicación

de la regresión-kriging a los contaminantes del aire en Japón con el fin de proporcionar

un método práctico para obtener una distribución espacial con suficiente precisión y una

alta resolución espacial (1 km × 1 km); emplearon los datos de monitoreo del aire de

regulación de los años 2009 y 2010, mientras que las variables predictoras fueron

preparados a partir de diferentes conjuntos de datos sobre los que se aplicaron la

regresión-kriging. Los resultados indicaron que la regresión-kriging es un procedimiento

práctico que se puede aplicar para la predicción de la distribución espacial de los

contaminantes del aire en Japón, con suficiente precisión y una alta resolución espacial.

Así mismo Zeng, Liu, Stein & Jia[130] supervisan y modelan la expansión urbana por

medio de una combinación de teledetección, sistemas de información geográfica y

estadística espacial (regresión-kriging), la metodología se aplica en la ciudad de Wuhan,

China, para el período de 1990 a 2013 y los resultados revelan que el suelo urbanizado se

ha ampliado y se han dispersado los grupos urbanos, siendo el crecimiento demográfico,

el desarrollo económico y el transporte las principales causas de la expansión urbana. En

el trabajo los modelos de regresión espacial muestran ser superiores a los modelos

tradicionales y concluyen los autores que la integración de la teledetección, los sistemas

de información geográfica y la estadística espacial ofrece una excelente oportunidad para

explorar la variación y las interacciones espacio-temporal entre los distritos de las zonas

metropolitanas y para controlar el proceso de expansión.

En dos trabajos más es posible encontrar temas relacionados con la aplicación de

métodos kriging sobre residuos para datos espaciales, uno de estos trabajos es el de

Szymanowski & Kryza[131] donde aplicaron el algoritmo de regresión geográfica

ponderada para derivar la estructura espacial de la isla de calor urbana en la ciudad de

52

Wroclaw, Polonia SW; estos resultados se compararon con los modelos de regresión

globales, usando diversos procedimientos estadísticos, entonces ambos modelos locales y

globales se extendieron por la interpolación de los residuos de la regresión y se utilizan

para la interpolación espacial de la estructura de la isla de calor urbano. Se encontró que

la incorporación de los residuos interpolados conduce a una mejora significativa de los

resultados de interpolación para ambos modelos. Finalmente Liu, Kyriakidis &

Goodchild[132] trabajaron en un método de interpolación por área basado en kriging,

que puede ser utilizado para desagregar los residuos resultantes de la regresión. El

método se ilustra mediante la desagregación de la población de las unidades del censo

para las zonas de uso del suelo dentro de estas.

53

5. Metodología

En la sección 3.2.3 se indicó que la clasificación de una imagen es una tarea que se

realiza con el propósito de convertir datos cuantitativos (generalmente los ND de los

pixeles en cada banda espectral) en datos cualitativos (clases)[36].

La motivación para proponer la regresión-kriging en la clasificación de imágenes surge

en principio por dos razones: la primera tiene que ver con la importancia de considerar

el componente espacial y la estructura de correlación que existe entre datos espaciales4 al

momento de diseñar el modelo predictivo, los métodos empleados usualmente en la

clasificación de imágenes (SVM, RNA, árboles de decisión, bosques aleatorios, entre

otros) no tienen en cuenta esta información pues se basan en las características

espectrales de los datos más no en las espaciales; lo segundo tiene que ver con las

dificultades conceptuales identificadas por Papritz[81] al trabajar con los datos de tipo

indicador cuando se emplean métodos geoestadísticos clásicos como el kriging o cokriging

indicador esto es: (1) el modelado inconsistente del semivariograma indicador, y (2) el

uso de semivariogramas globales que conduce a predicciones sesgadas debido a que los

residuos son, por definición, no estacionarios.

Atendiendo a lo anterior en el Diagrama 3 se plantea un metodología para clasificar

imágenes satelitales empleando la regresión-kriging, cuya construcción se realizó con

base a la propuesta presentada por Hengl[59]. Este autor plantea extender la regresión

logística multinomial a la regresión-kriging, entonces en el caso de la regresión logística,

la probabilidad de observar una clase ( ) en nuevas ubicaciones se calcula con la (Ec. 52)

posteriormente el modelo de regresión se complementa con el modelado de

semivariogramas para residuos de la regresión, que luego de ser interpolada y se añade

de nuevo a la estimación de regresión (Ec. 53). El proceso propuesto por Lizarazo [37]

también fue considerado en este diseño.

4 La información proveniente de las imágenes satelitales tiene el carácter de datos espaciales.

54

Figura 9. Metodología implementada para clasificar una imagen con regresión-kriging. Fuente: La investigación.

INICIO

Realizar análisis de normalidad a los residuos obtenidos del modelo

FIN

Transformar datos hasta obtener normalidad

Definir clases objetivo y el conjunto de atributos que se utilizarán

como variables predictivas en el modelo de deriva

Construir polígonos de entrenamiento para cada una de las clases

objetivo

Realizar ajuste del semivariograma para los residuos (ajustar un

semivariograma por cada clase)

Realizar AEDE unibanda y multibanda a la información

Aplicar modelo GLM o multinomial a toda la imagen para

obtener predicción

Realizar predicción con método kriging sobre los residuos

Construir modelo de deriva o tendencia a partir muestra de

entrenamiento

¿Los residuos siguen

una distribución

normal?

NO

SI

Sumar la predicción de residuos obtenidos vía kriging a la

predicción realizada con el modelo GLM o multinomial

Seleccionar muestras de entrenamiento y de validación

Seleccionar imagen a clasificar

Realizar evaluación de exactitud temática

Ajustar un semivariograma

por cada clase

Kriging Ordinario o Simple

Usar modelo apropiado como GLM o

multinomial

Las variables predictivas pueden ser

las bandas, índices, elevaciones,

componentes principales

55

5.1. Datos y AEDE

Para el procesamiento de la información se ha trabajado con el programa R-project

que es un software libre, cuenta con la licencia GNU General Public License y consta

de 4 libertades: Libertad 0: la libertad de ejecutar el programa como desee y con

cualquier propósito; Libertad 1: libertad de estudiar el funcionamiento del programa y

adaptarlo a sus necesidades; Libertad 2: La libertad de rescribir copias para ayudar a

los demás; y Libertad 3: La libertad de manejar el programa y publicar las mejorar,

de manera que toda comunidad se beneficie.

R es una plataforma estadística que ofrece todas las técnicas de análisis de datos,

además permite programar nuevos métodos y rutinas estadísticas de una manera fácil

y robusta. R es multiplataforma funciona en Mac, Windows y en numerosos sistemas

UNIX, esto significa que cualquier persona puede trabajar con los datos, figuras,

análisis y más importante aún usar el código programado para reproducir las figuras y

el análisis; por esto cualquier persona en cualquier lugar, puede usar R sin ninguna

licencia. Es de código abierto, existe una gran comunidad de voluntarios trabajando

para mejorarlo, lo cual le permite ser moldeado y dirigido a cuestiones específicas,

creando así programas y paquetes que funcionen en el entorno R. Algunos de estos

programas son R-studio, Java GUI for R, R- commander, RKWard, entre otros, y con

más de 6000 paquetes indexados en CRAN, Biocoductor, GitHub y R-Forge. Esta

comunidad de usuarios hace que se actualice constantemente.

Aparentemente R tiene limitaciones al procesar grandes vólumenes de información sin

embargo en la actualidad existen contibuciones en paquetes como “snowfal” y en

herramientas de líneas de comandos de UNIX como “sfCluster” las cuáles están

diseñadas para hacer más fácil y flexible la programación en paralelo sobre R.

Para el caso de estudio se ha extraído un recorte de una escena completa SPOT 5 del

14 de Marzo del año 2005 de la ciudad de Bogotá área urbana. La escena tiene una

resolución espacial de 10 metros por 10 metros y 4 bandas, con el siguiente

cubrimiento en el espectro:

• B1 (verde: 0,50 – 0,59 µm),

• B2 (rojo: 0,61 – 0,68 µm),

• B3 (infrarrojo cercano: 0,78 – 0,89 µm),

• B4 MIR (infrarrojo medio: 1,58 – 1,75 µm).

La banda B4 fue previamente remuestreada al tamaño de las bandas del visible.

56

La Figura 10 detalla el área de estudio sobre la cual se generarán las clasificaciones de

cobertura. Este recorte cubre parte de las localidades de Engativá, Barrios Unidos,

Fontibón, Teusaquillo y Chapinero en la ciudad de Bogotá, tiene un tamaño de 1151

por 545 pixeles y el área cubierta es de 1.568 hectáreas. En la imagen se pueden

identificar lugares como el parque Metropolitano Simón Bolívar, la Escuela Militar

General Militar Santander, una parte del campus de la Universidad Nacional de

Colombia, el estadio y coliseo el Campín, un sector de los cerros orientales e

incrustados en estos, la UPZ San Luis, uno de los barrios que marca el límite de la

ciudad con el municipio de la Calera.

Figura 10. Recorte escena Spot 5 ciudad de Bogotá en composición RGB-342 identificando puntos representativos

de la zona de estudio- Parque Metropolitano Simón Bolívar (1), la Escuela Militar General Santander (2), una

parte de campus de la Universidad Nacional de Colombia (3), el estadio y coliseo el Campín (4), un sector de los

cerros orientales (5), UPZ San Miguel (6). Fuente: La investigación.

La selección de la zona de estudio se realizó considerando el nivel de referencia que se

tenía del lugar, con el fin de hacer de manera inmediata la actividad de

reconocimiento en campo. Por otra parte se trabajó con una imagen que con

antelación había sido georreferenciada, que presenta bajos porcentajes de nubosidad y

ausencia de ruido; en algún otro caso puede ser importante revisar la escala y el

objetivo del trabajo para obtener la información adecuada. Para realizar el AEDE, se

generaron en el software “R” los histogramas de frecuencia por banda (Anexo 1-

Figura A), las estadísticas por banda (Anexo 1-Figura B), la matriz de covarianza

(Anexo 1-Figura C), la matriz de correlación (Anexo 1-Figura D) y los ploteos de

dispersión entre bandas (Anexo 1-Figura E); el AEDE deja ver que los datos de todas

las bandas presentan una distribución que se puede considerar normal, aunque se

1

2

3

4

5

6

57

evidencia algo de sesgo a derecha, que se puede ocasionar por la presencia de unas

nubes en la esquina inferior de la izquierda de la imagen. Las estadísticas multibanda

muestran una alta correlación entre las bandas 1 y 2, que se corrobora con la similitud

entre los valores de la media, del primer y el tercer cuartil para cada una de estas y

por otro lado las bandas 1 y 2 también exhiben por separado una alta correlación con

la banda 4.

En la zona cubierta por la imagen se identificaron 6 clases de cobertura

predominantes que se notaron de la siguiente manera: (1) edificaciones, (2) cuerpos de

agua, (3) vías, (4) pastos, (5) nubes y (6) bosques. Para construir los polígonos de

entrenamiento se tuvo especial cuidado en seleccionar muestras “puras”, es decir, se

evitó que dentro de los polígonos quedaran pixeles no característicos o no

representativos de la clase (Figura 11), esta tarea se realizó sobre el software ArcGIS

10.1.

Figura 11. Identificación polígonos de entrenamiento sobre la zona de estudio – Spot 5 ciudad de Bogotá en

combinación RGB-324. Fuente: La investigación.

En este trabajo se realizó una clasificación supervisada. La extracción de la muestra,

tanto de entrenamiento como de validación, se realizó con “R” recurriendo a un

muestreo aleatorio simple (MAS) sobre los polígonos de entrenamiento. El tamaño de

la muestra de entrenamiento se definió en 720 puntos teniendo en cuenta que se

cumpliera en lo mínimo el criterio dado por Mather[133] y el tamaño de la muestra de

validación en 1440 puntos, siguiendo la recomendación de autores como Isaac &

Simón[134] que sugieren que la muestra de validación tenga dos veces el tamaño de la

muestra de entrenamiento. Es importante anotar que ninguno de los puntos que

conforman la muestra de entrenamiento fue incluido en la muestra de validación.

58

Por otra parte, el análisis de separabilidad visual se realizó con diagramas de

dispersión entre bandas, encontrando en general que la mayor separabilidad la

presentaban las clases de nubes, cuerpos de agua, bosques y pastos, mientras que las

coberturas de edificaciones y vías tienen poco separabilidad en una amplia región del

espectro (Figura 12).

(a) (b) (c)

(d) (e) (f)

Figura 12. Diagramas de dispersión de clases entre (a) banda 1 y banda 2, (b) banda 1 y banda 3, (c) banda 1 y

banda 4, (d) banda2 y banda 3, (e) banda 2 y banda 4 y (f) banda 3 y banda 4. Fuente: La investigación.

5.2. Modelo de regresión multinomial

Como se indicó previamente la regresión-kriging combina dos enfoques, emplea la

regresión para ajustar la variación de la variables objetivo (explicada) y kriging simple

con valor esperado 0 se utiliza para ajustar los residuos, es decir, la variación no

explicada[60]. En otras palabras la regresión-kriging resuelve los coeficientes del

modelo de deriva o tendencia, mientras que los residuos son interpolados con un

método kriging.

59

Tabla 3. Coeficientes modelo de regresión multinomial

Intercepto Banda 1 Banda 2 Banda 3 Banda 4

2 78.94326 0.7111488 0.23331522 0.13909601 0.3612990

3 46.95352 0.3299733 0.08809266 0.08348483 0.2448964

4 15.19361 0.2252828 1.61065766 1.18816424 0.9644961

5 -28.00588 0.3008365 1.23104203 0.94304360 0.4982073

6 189.87716 0.4434714 2.05603673 0.71339397 0.2705410

Residual Deviance: 167.8443 - AIC: 217.8443

En este caso de estudio se ajustó un modelo de regresión multinomial como modelo de

tendencia (Tabla 3), para lo cual se usó la librería nnet del software “R”. En este caso

la variable objetivo es la “clase” que toma seis valores: (1) edificaciones, (2) cuerpos

de agua, (3) vías, (4) pastos, (5) nubes y (6) bosques, las variables auxiliares o

predictivas fueron las cuatro bandas de la imagen SPOT 5.

A continuación se extrajeron los residuos del modelo sobre los cuáles se realizaron

pruebas de normalidad. Al verificar los histogramas de frecuencia (Figura 13) se

encuentra que estos residuos presentan una distribución que se puede considerar

normal, aunque se evidencia algo de sesgo a derecha, la mayor parte de las

observaciones se ubica hacía el valor medio. Lo anterior se confirma con los resultados

obtenidos al aplicar los test de Shapiro-Wilk y Kolmogorov-Smirnov.

(a) (b) (c)

(d) (e) (f)

Figura 13. Histogramas de frecuencia para residuos (a) Clase 1 - Edificaciones, (b) Clase 2 - Cuerpos de Agua, (c)

Clase 3 - Vías, (d) Clase 4 - Pastos, (e) Clase 5 - Nubes y (f) Clase 6 - Bosques Fuente: La investigación.

60

Tabla 4. Test de normalidad para residuos

Residuos Clase Test Shapiro-Wilk (D) Test Kolmogorov-Smirnov (W)

Edificaciones 0.40218 0.37855

Cuerpos de Agua 0.31436 0.41085

Vías 0.55295 0.38333

Pastos 0.037728 0.49044

Nubes 0.053861 0.49887

Bosques 0.059954 0.49428

5.3. Ajuste del semivariograma de los residuos

Para construir los semivariogramas muestrales de los residuos se consideró el

estimador clásico definido en la (Ec. 11). Los semivariogramas experimentales de los

residuos asociados a las clases de edificaciones (Figura 14a), cuerpos de agua (Figura

14b) y vías (Figura 14c) exhiben una estructura de correlación susceptible de

ajustarse con un modelo teórico, sin embargo los semivariogramas de las tres clases

restantes (Figura 14d, 14e, 14f) resultaron ser solo ruido, por tal motivo solo se ajustó

semivariograma para los residuos que muestran una correlación entre ellos.

De lo anterior se concluye que para las clases pastos, nubes y bosques la predicción

obtenida al aplicar el modelo multinomial es la definitiva, solo a las predicciones de

las clases edificaciones, cuerpos de agua y vías se les adicionaó la predicción de los

residuos obtenida vía kriging.

El ajuste de los semivariogramas se realizó con un modelo esférico y considerando

cuatro métodos de ajuste Máxima Verosimilitud (ML), Máxima Verosimilitud

Restringida (RML), MCO, Mínimos Cuadrados Ponderados (MCP).

Los parámetros de ajuste para la clase de edificaciones se presentan en la tabla 5, los

de la clase cuerpos de agua en la tabla 6 y los de la clase vía en la tabla 7. En los tres

casos el método de ajuste que arrojó menor error fue el de MCP; esto se puede

corroborar visualmente en la Figura 15.

61

(a) (b) (c)

(d) (e) (f)

Figura 14. Cálculo semivariograma muestral con estimador clásico por clase (a) Clase 1 - Edificaciones, (b) Clase

2 - Cuerpos de Agua, (c) Clase 3 - Vías, (d) Clase 4 - Pastos, (e) Clase 5 - Nubes y (f) Clase 6 - Bosques Fuente:

La investigación.

Tabla 5. Parámetros obtenidos al ajustar los semivariogramas para la clase 1 - Edificaciones. Fuente: La

investigación.

Meseta Modelo Rango Error

ML 0.03478942538 Esférico 686.9064231 6.369386e-05

RML 0.287275471 Esférico 2000 0.04548663

MCP 0.03846539924 Esférico 1523.391824 4.470523e-05

MCO 0.02934907653 Esférico 512.6882407 0.0001038881

Tabla 6. Parámetros obtenidos al ajustar los semivariogramas para la clase 2 – Cuerpos de Agua. Fuente: La

investigación.


ML 0.03252535161 Esférico 906.0954905 5.735028e-05

RML 0.04853004553 Esférico 2000 0.0002556267

MCP 0.03186043207 Esférico 673.5647533 5.23578e-05

MCO 0.03153611357 Esférico 885.9881405 5.703054e-05

Parámetros

Modelo

Parámetros

Modelo

62

Tabla 7. Parámetros obtenidos al ajustar los semivariogramas para la clase 3 - Vías. Fuente: La investigación.


ML 0.06486495189 Esférico 811.1736869 7.196684e-05

RML 0.2913801768 Esférico 2000 0.03657255

MCP 0.06478527158 Esférico 803.7201024 7.195413e-05

MCO 0.0627748535 Esférico 780.912787 7.531754e-05

(a) (b) (c)

Figura 15. Ajuste de modelo de semivarianza esférico clase (a) Clase 1 - Edificaciones, (b) Clase 2 - Cuerpos de

Agua, (c) Clase 3 - Vías. Fuente: La investigación.

Los modelos de semivarianza que definen la estructura de correlación de los residuos

están dados por la (Ec. 56) para la clase de edificaciones, por la (Ec. 57) para la clase

de cuerpos de agua y por la (Ec. 58) para la clase de vías.

( ) (

(

)

(

) ) (56)

( ) (

(

)

(

) ) (57)

( ) (

(

)

(

) ) (58)

5.4. Método kriging sobre residuales

El método kriging empleado para interpolar los residuos fue el kriging simple

asumiendo un valor esperado de 0 [60] y considerando los cinco vecinos más cercanos

en la predicción de los puntos donde se desea conocer el valor de la variable objetivo,

esto es la “clase”. En la Figura 16 se presentan las predicciones obtenidas y las

varianzas asociada a cada predicción.

Parámetros

Modelo

63

Posteriormente se aplicó el modelo de regresión multinomial obtenido en la sección 5.2

a toda la imagen y se sumó a este resultado las predicciones de los residuos realizadas

vía kriging simple.

(a) (b)

(c) (d)

(e) (f)

Figura 16. Predicción de residuos y varianza de la predicción obtenida con kriging simple (a) Predicción residuos

Clase 1 - Edificaciones, (b) Varianza predicción residuos Clase 1 - Edificaciones (c) Predicción residuos Clase 2 -

Cuerpos de Agua, (d) Varianza predicción residuos Clase 2 - Cuerpos de Agua, (e) Predicción residuos Clase 3 -

Vías y (f) Varianza predicción residuos Clase 3 - Vías. Fuente: La investigación.

64

6. Resultados

A partir de los elementos construidos en los numerales anteriores se obtuvo el mapa

de clases con la regresión-kriging. Para tener un primer acercamiento a la bondad que

tiene la regresión kriging se generó un mapa de clasificación solo con el resultado

obtenido al aplicar el modelo de regresión multinomial (Figura 17) y otro aplicando la

regresión-kriging (Figura 18).

Figura 17. Clasificación de la imagen obtenida mediante modelo multinomial. Fuente: La investigación.

Figura 18. Clasificación de la imagen obtenida mediante regresión-kriging. Fuente: La investigación.

65

Visualmente es posible notar un cambio significativo entre las coberturas de

edificaciones y vías. En el AEDE realizado en la sección 5.1 se evidenció la existencia

de una alta correlación entre estas clases, así como también entre las clases cuerpos de

agua y vías, hecho que hizo anticipar las dificultades que podrían tener los

clasificadores al asignar un pixel a una u otra de estas clases.

Al verificar las matrices de confusión obtenidas con cada método (Tablas 8 y 9), en

efecto la mayor cantidad de pixeles que no fueron correctamente clasificados se

encuentran en las clases de edificaciones, vías y cuerpos de agua.

Tabla 8. Matriz de confusión asociada a la clasificación realizada mediante modelo multinomial. Fuente: La

investigación.

Edificaciones Cuerpos de

Agua Vías Pastos Nubes Bosques

Edificaciones 427 0 19 0 0 0

Cuerpos de Agua 0 129 9 0 0 1

Vías 22 13 148 0 0 0

Pastos 0 0 0 271 0 1

Nubes 0 0 0 0 133 0

Bosques 0 0 0 0 0 260

Tabla 9. Matriz de confusión asociada a la clasificación realizada mediante regresión-kriging. Fuente: La

investigación.





Vías 50 3 118 0 0 0

Pastos 0 0 0 271 0 0

Nubes 0 0 0 0 140 0

Bosques 0 0 0 16 0 246

Para realizar el ejercicio de comparación de desempeño de la regresión-kriging con el

de métodos no convencionales, se obtuvieron clasificaciones a partir de los métodos

SVM, Distancia Mahalanobis, RNA, Árboles de Decisión y Bosques Aleatorios, sobre

la misma imagen SPOT 5 del 14 de Marzo del año 2005 de la ciudad de Bogotá. Para

el desarrollo de este trabajo se siguió la metodología sugerida por Lizarazo[37].

En “R”, se ejecutaron los algoritmos para la clasificación de la imagen de los cinco

métodos y finalmente se realizó la evaluación de exactitud temática a partir de la

clasificación arrojada por los algoritmos y la muestra de validación que previamente se

había construido. Se observará que cuando se habla de los métodos SVM, árboles de

decisión, RNA y bosques aleatorios las opciones para implementar los algoritmos son

Terreno

Predicción

Terreno

Predicción

66

múltiples, es decir, los resultados que se pueden obtener al aplicar el método SVM

estarán en función del kernel y los parámetros que se definan al ejecutarlo, ocurre lo

mismo con los árboles de decisión dependiendo de cómo se estructura del árbol, del

método de selección de atributos y el algoritmo empleado, el método puede arrojar

diferentes resultado para la misma serie de datos.

En este trabajo el algoritmo del método SVM, se configuró con una función de base

radial con parámetros sigma=2,5 - C=10 como kernel; para seleccionar el árbol de

decisión se realizaron pruebas con dos librerías de “R”, rpart (Recursive partitioning

and regression trees) que implementa muchas de las ideas que abarca CART y la

librería tree que hace lo propio también con algoritmo CART, al final se construyeron

tres árboles de decisión (Anexo 2) y se escogió el que mostró un buen resultado de

exactitud temática y que además se ajustaba a la cobertura real del terreno según el

conocimiento previo que se tenía de la zona; en el caso de bosques aleatorios se tuvo

en cuenta la importancia a las variables (Anexo 4) y el bosque se construyó con 500

árboles5; para las RNA se realizaron pruebas con tres librerías de “R” nnet, neuralnet

y RSNNS; como en el caso de los árboles de decisión se selección para la comparación

final la RNA que mostró el mejor resultado en exactitud temática (Anexo 3).

Uno de los resultados de este trabajo son las clasificaciones obtenidas mediante la

aplicación de los métodos de clasificación existentes a los cuales se ha hecho referencia

en los apartados anteriores (Figura 19, 20, 21 y 22).

Figura 19. Clasificación de la imagen obtenida mediante el algoritmo SVM. Fuente: La investigación.

5 Una vez se realizaron múltiples pruebas con diferentes valores en el parámetro número de árboles se encontró que con 500 se

obtenían los mejores resultados en exactitud temática.

67

Figura 20. Clasificación de la imagen obtenida mediante el algoritmo Distancia de Mahalanobis. Fuente: La

investigación.

Figura 21. Clasificación de la imagen obtenida mediante el algoritmo Bosques Aleatorios. Fuente: La

investigación.

Figura 22. Clasificación de la imagen obtenida mediante el algoritmo Redes Neuronales Artificiales (nnet).

Fuente: La investigación.

68

De los tres árboles de decisión presentados en el Anexo 2 se escogió el árbol obtenido

con la librería rpart, la selección obedece no solo a los resultados obtenidos en la

evaluación de exactitud temática de cada clasificación sino también al conocimiento

que se tiene de la zona de estudio. Aunque la clasificación obtenida con la librería tree

sin poda muestra mejores resultados en la evaluación de exactitud temática,

visualmente la clasificación obtenida con la librería rpart representa con mayor

fidelidad la cobertura real, ejemplo de ello son las imágenes presentadas en la Figura

24a y 24c donde se aprecia que una gran parte de cobertura que corresponde a

edificaciones fue clasificada como vías usando la librería tree, aunque en las imágenes

Figura 24b y 24d se aprecia una generalización sobre algunos pixeles que corresponden

a vías en la clasificación realizada con la librería rpart resulta menos grave este efecto

que el presentado en el caso de las Figuras 24a y 24c. Por lo anterior y dado que la

diferencia en la medición de exactitud temática e intervalos de confianza es mínima

entre las dos clasificaciones se toma la clasificación obtenida mediante rpart para ser

tenida en cuenta en la comparación de métodos (Figura 23).

Figura 23. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la librería rpart.


En el Anexo 5 del trabajo se puede tener acceso al código “R” empleado para

desarrollar todo el trabajo.

69

(a) (b)

(c) (d)

Figura 24. Comparación visual de la clasificación obtenida mediante el algoritmo Arboles de Decisión usando la

librería tree (a) (c) y la librería rpart (b) (d). Fuente: La investigación.

Es posible notar de las matrices de confusión, que tal como ocurrió en la clasificación

realizada con regresión-kriging, son las coberturas de edificaciones y vías las que

mayor cantidad de pixeles “mal” clasificados presentan en la aplicación de los cinco

métodos como se había sugerido inicialmente en el análisis de separabilidad visual.

Entre los cuerpos de agua y las vías también presentan algunos pixeles mal

clasificados que deben ser tenidos en cuenta en las clasificaciones SVM, distancia

Mahalanobis y bosques aleatorios. En las clasificaciones de distancia Mahalanobis y

árboles de decisión son las coberturas de pastos y bosques las que presentan confusión

en la clasificación.

Tabla 10. Matriz de confusión asociada a la clasificación realizada mediante SVM. Fuente: La investigación.





Vías 22 11 160 0 0 0

Pastos 0 0 0 271 0 0

Nubes 0 0 0 0 140 0

Bosques 0 0 0 0 0 262

Terreno

Predicción

70

Tabla 11. Matriz de confusión asociada a la clasificación realizada mediante Distancia Mahalanobis. Fuente: La

investigación.





Vías 50 3 118 0 0 0

Pastos 0 0 0 271 0 0

Nubes 0 0 0 0 140 0

Bosques 0 0 0 16 0 246

Tabla 12. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión con la librería

rpart. Fuente: La investigación.





Vías 20 0 151 5 0 0

Pastos 1 0 0 270 0 0

Nubes 4 0 0 0 136 0

Bosques 0 0 0 11 0 251

Tabla 13. Matriz de confusión asociada a la clasificación realizada mediante RNA (nnet). Fuente: La

investigación.





Vías 26 12 148 0 0 0

Pastos 0 0 1 270 0 0

Nubes 0 0 0 0 140 0

Bosques 0 1 1 0 0 261

Tabla 14. Matriz de confusión asociada a la clasificación realizada mediante Bosques Aleatorios. Fuente: La

investigación.





Vías 28 10 150 0 0 0

Pastos 0 0 0 271 0 0

Nubes 0 0 0 0 140 0

Bosques 0 1 0 0 0 262

Al realizar la evaluación temática (Tabla 15) lo que se encuentra es que en efecto el

ajuste de las predicciones realizadas con el modelo multinomial adicionando las

estimaciones de los residuales vía kriging simple (regresión-kriging) disminuyó el error

Terreno

Predicción

Terreno

Predicción

Terreno

Predicción

Terreno

Predicción

71

de la clasificación en 2.78% con respecto al mismo modelo multinomial puro, por lo

tanto se aumentó el porcentaje de información correctamente clasificado en la misma

proporción y se redujo el rango del intervalo de confianza de la clasificación en 0.72%.

De los cinco (5) métodos no convencionales el que arrojó mejores resultados en la

evaluación de exactitud temática fue el SVM.

Tabla 15. Resultado de la evaluación temática de las clasificaciones. Fuente: La investigación.

Error de la

clasificación

(%)

Índice Kappa

(%)

Porcentaje

Correctamente

Clasificado –

PCC (%)

Intervalo de confianza de la

clasificación al 95%

Rango del

Intervalo de

Confianza

(%)

Límite

Inferior (%)

Límite

Superior (%)

SVM 3,47 97,16 96,53 95,45 97,36 1,90

Distancia

Mahalanobis 7,15 94,03 92,85 91,39 94,07 2,67

Árboles de

Decisión

(rpart)

6,11 94,28 93,89 92,53 95,01 2,48

RNA

(neuralnet) 5,00 95,75 95,00 93,75 96,01 2,26

Bosques

Aleatorios 4,58 96,34 95,42 94,21 96,38 2,17

Modelo

Multinomial 5,00 95,45 95,00 93,75 96,01 2,26

Regresión-

kriging 2,22 97,60 97,78 96,88 98,42 1,54

Comparación

SVM vs

Regresión-

kriging

1,25 0,44 1,25 --- --- 0,36

A partir de lo anterior el resultado más relevante es que el error de la clasificación al

emplear la regresión-kriging se redujo en 1,25% con respecto al resultado obtenido con el

mejor método no convencional (SVM), el índice kappa aumentó 0,44% y el rango del

intervalo de confianza de la clasificación se redujo en 0,36%, lo que confirma la hipótesis

planteada al inicio del trabajo.

Resultado

evaluado

Método

72

7. Análisis de Resultados

La impresión visual de la clasificación obtenida por los seis métodos (regresión-kriging,

SVM, árboles de decisión, distancia Mahalanobis, bosques aleatorios y RNA), en el

lado oriental de la ciudad, es buena en términos generales, en la clasificación SVM se

exceptúan algunos pixeles que fueron clasificados como cuerpos de agua y que por la

referencia que se tiene del lugar se sabe que no lo son, aunque con bosques aleatorios

y distancia Mahalanobis también se presentó ese problema es menor el porcentaje de

pixeles mal clasificados; en esta misma área el trazado de algunas vías principales e

incluso de algunas vías secundarias alcanza a definirse con claridad en todas las

clasificaciones. Visualmente la cobertura de bosques, predominante en esta zona,

presenta el mejor resultado en la clasificación realizada con RNA y regresión-kriging

(Figura 25).

En el lado occidental de la ciudad, margen izquierda parte inferior de la imagen, se

encuentran varias zonas donde la clasificación no corresponde con la cobertura

existente del lugar, esto ocurre en las seis clasificaciones; por ejemplo, en el barrio de

la Esmeralda en cercanía al Parque Metropolitano Simón Bolívar y también en los

sectores de Ciudad Salitre y Modelia, ciertos pixeles que debían quedar en la clase de

edificaciones fueron clasificados como vías (Figura 26); la Avenida el Dorado que se

esperaba quedará clasificada como vía, quedó clasificada en algunos tramos como

cuerpo de agua en la clasificaciones realizada con SVM, RNA y bosques aleatorios, lo

mismo ocurrió con algunos pixeles ubicados en los límites de las coberturas

edificaciones y vías (Figura 27). A pesar de que la clasificación obtenida con árboles

de decisión tiene importantes niveles de confusión entre las vías y las construcciones,

esta misma se constituiría en la representación más acertada de la cobertura existente

en la zona.

73

(a) (b)

(c) (d)

(e) (f)

Figura 25. Clasificación obtenida para el sector de los cerros orientales con los métodos (a) SVM, (b) Distancia

Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging. Fuente: La

investigación.

74

(a) (b)

(c) (d)

(e) (f)

Figura 26. Identificación zonas con problemas de clasificación realizada con los métodos (a) SVM, (b) Distancia

Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging, en el sector de la

Esmeralda y Ciudad Salitre. Fuente: La investigación.

El problema evidenciado en la Figura 26, se puede atribuir principalmente a la

resolución espacial de la imagen y a la miscelánea de coberturas que se presentan en

estos sectores; los barrios de la Esmeralda, Modelia y Salitre Plaza se caracterizan por

tener bastantes zonas verdes, alamedas arborizadas, andenes con jardines, árboles y

prado, lo que posiblemente ocasiona que la respuesta espectral de las coberturas de

vías y edificaciones se vea afectada por la respuesta espectral de estos elementos; con

anterioridad ya se tenía algún indicio de este mismo hecho, en la Figura 10 las

edificaciones en esos sectores, muestran unas tonalidades más opacas comparadas con

las edificaciones de otros sectores, motivo por el cual al generar los polígonos de

75

entrenamiento no se tomaron muestras de edificaciones en esos puntos de la imagen,

ya que se corría el riesgo de tomar pixeles no característicos de la cobertura. Ocurre lo

opuesto en la zona delimitada por la Av. NQS, la Calle 80, la Calle 45 y la Av.

Caracas, así como todo el sector a la Escuela Militar General Santander, donde la

clasificación en edificaciones es muy fiel a la realidad, allí escasamente se identifican

algunos parques, hay poca presencia de alamedas y vegetación en las aceras (Figura

28).

(a) (b)

(c) (d)

(e) (f)

Figura 27. Identificación zonas con problemas de clasificación realizada con los métodos (a) SVM, (b) Distancia

Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f) regresión-kriging, en un tramo de la

Av. El Dorado. Fuente: La investigación.

76

(a) (b)

(c) (d)

(e) (f)

Figura 28. Identificación cuadrante Av. NQS, Calle 80, Av. Caracas, Calle 45 sobre la clasificación realizada con

los métodos (a) SVM, (b) Distancia Mahalanobis, (c) Árboles de Decisión, (d) Bosques Aleatorios, (e) RNA y (f)

regresión-kriging. Fuente: La investigación.

77

8. Conclusiones

En el presente trabajo se propuso el uso de la regresión-kriging como un método para

clasificar de imágenes satelitales y se realizó una comparación de su desempeño con el

de cinco los métodos no convencionales más populares en la realización de esta tarea,

en general los resultados que se han obtenido con los seis son bastantes buenos. El

trabajo muestra una superioridad del método propuesto en la investigación, la

regresión-kriging, sobre los otros algoritmos, el algoritmo no convencional con mejor

desempeño fue SVM y la distancia Mahalanobis el método de más bajo desempeño

(Tabla 15), sin embargo desde un análisis más visual los árboles de decisión parecen

tener un buen desempeño, si se considera que este resultado guarda gran similitud la

cobertura existente.

No obstante lo anterior sería apresurado asegurar que estos serán los mejores

algoritmos para este tipo de datos, faltaría realizar otras pruebas sobre más imágenes

para atreverse a inferir tal cosa, el uso de simulaciones podría corroborar o refutar el

resultado obtenido en este trabajo. Lo anterior se concluye dado que aunque en

numerosos artículos científicos se han destacado las bondades de los métodos SVM,

árboles de decisión y bosques aleatorios en las tareas de clasificación sobre las de otros

métodos, como por ejemplo las RNA, algunos estudios han demostrado que no

siempre esos métodos resultan ser la mejor opción y faltarían algunas pruebas

adicionales para garantizar que los resultados siempre tendrían la misma tendencia.

Aunque claramente el resultado de este trabajo ya es un punto de partida para

futuros trabajos y desarrollos, en este momento lanzar un juicio a priori sobre la

pertinencia de usar uno u otro método para este tipo de trabajos sería arriesgada, más

aún porque la selección del mismo dependerá en cada caso particular del problema

que se esté abordando, del tipo de datos que se tengan a disposición, del objeto de

estudio, de la escala de trabajo, de la disponibilidad de recursos físicos para el

procesamiento y cálculos, entre otros.

Nótese que en la mayoría de áreas revisadas resulta ser más fiel a la realidad, al

menos visualmente, la clasificación obtenida con el algoritmo de árboles de decisión

que la obtenida con los otros métodos, sin embargo la evaluación de exactitud

78

temática muestra que es el método regresión-kriging el que presenta resultados más

óptimos.

El resultado ideal de clasificación para una imagen quizás no esté en seleccionar solo

una clasificación, posiblemente esté en una composición de fragmentos de las

clasificaciones realizadas con diferentes métodos. Para esta imagen en particular

podría resultar conveniente no seleccionar una sola clasificación sino estructurar un

mosaico con varios de los resultados obtenidos.

Definitivamente el componente humano a la hora de tomar decisiones en los trabajos

de clasificación sigue siendo vital, aún no se ha alcanzado el nivel suficiente de

perfección en los algoritmos como para dejar solo en manos de la máquina ese tipo de

decisiones. El conocimiento que se debe tener sobre la zona de estudio y sobre el

comportamiento de la variable que se está procesando es vital para realizar la

selección apropiada del método de clasificación, en muchas ocasiones un aparente

sacrificio de exactitud puede representar ganancia en la veracidad de la clasificación.

De los métodos no convencionales que se revisaron SVM mostró los mejores resultados

en evaluación de exactitud temática y este resultado confirma ventajas que

anteriormente se le habían atribuido al método, como por ejemplo: se obtienen buenos

resultados aún con conjuntos de datos de entrenamiento pequeños, el proceso de

aprendizaje es un proceso matemático que permite obtener siempre el mejor

clasificador, una vez obtenido el modelo es sencillo implementarlo en diferentes

sistemas, tiene una alta velocidad de ejecución en la clasificación de grandes conjuntos

de datos, se manejan algoritmos complejos para reconocimiento de patrones no

lineales o extracción de características, pero para los propósitos del cálculo solo se

requiere trabajar con un algoritmo lineal, de relativamente fácil implementación

computacional.

No obstante lo anterior para el caso de estudio particular el método regresión-kriging

mostró ser superior a los demás método aplicados sobre la imagen lo que permite

corroborar la hipótesis planteada al inicio del trabajo, en efecto los métodos

geoestadísticos al considerar el componente espacial de la información, en particular su

estructura de correlación, ha arrojado mejores resultados en la evaluación de exactitud

temática comparado con otros métodos que se basan solo en las características

espectrales de la imagen satelital.

79

Si se revisan los resultados presentados en la Tabla 15 se encuentra que el error de la

clasificación al emplear la regresión-kriging se redujo en 1,25% con respecto al resultado

obtenido con SVM, el índice kappa aumentó 0,44% y el rango del intervalo de confianza de

la clasificación se redujo en 0,36%, lo que supera los límites fijados en la hipótesis del

trabajo.

Es importante resaltar el papel que ha tenido el software de procesamiento en el

desarrollo de este trabajo. “R” ha resultado ser una herramienta muy versátil que

cuenta con una innumerable gama de opciones para desarrollar algoritmos y

personalizar los resultados obtenidos en la ejecución de dicho algoritmos; el desarrollo

de librerías como raster, saca a “R” del contexto de software netamente estadístico y

lo lleva a un nuevo nivel. Si lo nota el lector la única tarea que no se realizó sobre “R”

fue la construcción de polígonos de entrenamiento ya que esto requería un proceso de

digitalización, por lo demás “R” resultó ser fundamental en este trabajo.

Se espera que el resultado de este proyecto pueda ser aplicado por empresas, tanto

privadas como públicas, dedicadas a la producción de información geográfica temática

relacionada con el estudio de uso y cobertura del suelo.

A nivel nacional los siguientes sectores podrían beneficiarse de los resultados del

proyecto:

Sector Ambiental

Sector Agropecuario

Sector Gestión del Riesgo

Sector Infraestructura y Transporte

Sector Minas y Energía

Sector Defensa

Y específicamente en instituciones que produzcan y traten información espacial

proveniente de imágenes satelitales como el Instituto Geográfico Agustín Codazzi

(IGAC), el Departamento Nacional de Planeación (DNP), el Instituto de Hidrología,

Meteorología y Estudios Ambientales (IDEAM), la Agencia Nacional de

Hidrocarburos (ANH), el Instituto Colombiano de Geología y Minería

(INGEOMINAS), la Dirección General Marítima (DIMAR), el Instituto de

Investigaciones Marinas y Costeras (INVEMAR), el Instituto Amazónico de

Investigaciones Científicas (SINCHI), entre otros.

80

La Maestría en Ciencias de la Información y las Comunicaciones cuenta con 12 grupos

de investigación. Se espera que el desarrollo del presente proyecto genere aportes que

contribuyan con la temática propuesta en la línea de investigación 1 del grupo de

investigación NIDE (Núcleo de Investigación en Datos Espaciales) que está dedicada

al análisis de imágenes orientado a la caracterización y detección de cambios en

objetos y fenómenos geográficos

Esta línea propone profundizar y desarrollar nuevos conceptos, métodos y técnicas de

análisis de imágenes que consideren no solamente la información espectral que poseen

los pixeles individuales sino la información de contexto espacial. De esta manera, el

análisis deja de ser únicamente la información espectral almacenada en cada pixel y se

incorporan otras características como la forma, el tamaño y la textura de los objetos y

fenómenos geográficos de interés.

El objetivo de esta línea es contribuir al entendimiento de los diversos

componentes del paisaje a diversas escalas y proveer metodologías que sirvan

para conocer el estado actual de diferentes elementos geográficos lo mismo que la

detección y cuantificación de los cambios que ocurren en esos elementos.

81

9. Recomendaciones y trabajos futuros

Para el problema de separabilidad que se presentó entre algunas clases se pueden

proponer dos soluciones, la primera tiene que ver con reevaluar si la escala de captura

de los datos base fue la apropiada para adoptar la definición del número de clases,

considerando además las particularidades que se pueden encontrar cuando se

manipulan datos de cobertura en una zona urbana, como era el caso del ejercicio; en

este sentido se puede pensar que el resultado de la clasificación mejoraría si

trabajando con la misma imagen se fusionan en una sola las clases edificaciones y vías

o por el contrario, si resulta de vital importancia para el trabajo hacer distinción de

estas clases, se podría pensar en adquirir información de alta resolución, quizás

imágenes Ikonos o imágenes fotogramétricas. La segunda opción sugiere dividir la

zona de estudio en dos o tres sub-zonas, realizar procesos de muestreo y clasificación

individuales según las particularidades de cada sub-zona y posteriormente reconstruir

la imagen inicial.

Al momento de realizar la selección final del método con el que se realizará la

clasificación de una imagen satelital en ocasiones la selección no debe estar solo en

función de los resultados que arrojan los test de evaluación de exactitud, la

experiencia de la persona que clasifica y la referencia que esta tenga del lugar de

estudio es determinante y vital en el producto final.

El código implementado en “R” que se presenta en el Anexo 5 para el algoritmo de

Mahalanobis, no fue el primero que se probó en el ejercicio, en su primera versión el

código incluía dos ciclos “for” y su tiempo de ejecución fue de un poco más de 106

horas en tiempo de usuario, casi 31.100 veces el tiempo que se reportó finalmente para

este método. Lo anterior es una ratificación de las dificultades que presenta la

implementación de estos ciclos y lo críticos que se vuelven estas rutinas en “R”.

Finalmente los siguientes son algunos trabajos futuros que pueden derivar de esta

investigación:

Realizar pruebas con la metodología propuesta, sobre imágenes que abarquen

zonas no urbanas para evaluar la efectividad de los métodos modelos de color,

82

tales como: Matiz (Hue), Saturación (Saturation) y Intensity (Intensidad)

(HSI); luminancia (luminance), en fase (In-phase) y cuadratura (quadrature)

(YIQ); Ciam, Magenta, Yellow y Black (CMYK) entre otros.

Weng[135], categoriza los sistemas de clasificación de imágenes en cinco

clasificadores basados: en pixel, en subpixel, contextuales, por campo y los

orientados a objetos. En el presente trabajo se harán comparaciones entre los

resultados obtenidos con la metodología propuesta y los resultados de

clasificadores basados en pixel, resultaría interesante comparar el desempeño de

la metodología propuesta con el de los cuatro clasificadores restantes

propuestos por Weng.

Otra posible tarea consiste en la ampliación de este trabajo a otro tipo de

imágenes satelitales. Incluso, podría ampliarse a brindar la opción de

compresión con pérdida, en beneficio de una mayor compresión.

Sería importante considerar el análisis de textura en la metodología propuesta.

Los problemas básicos del análisis de textura están agrupados en cuatro

amplias categorías: la segmentación de textura, la clasificación de textura, la

síntesis de textura y estudios de la forma de los objetos a partir de la

textura[136]. Este trabajo podría arrojar mejores resultados, comparado con los

que se puedan obtener en este trabajo.

Seguir explorando la integración de métodos convencionales para la

clasificación de imágenes con variables asociadas a la condición espacial de la

información geográfica o técnicas desarrolladas para su tratamiento, puede

mejorar el desempeño de los métodos.

https://es.wikipedia.org/wiki/Matiz_(color)

https://es.wikipedia.org/wiki/Modelo_de_color_HSV#Saturaci.C3.B3n

83

Referencias

[1] N. BECERRA and E. ALTAMIRO, "Aprendizaje computacional," Vínculos,

vol. 9, 2012.

[2] B. TSO and P. MATHER, Classification Methods for Remotely Sensed Data.

Segunda Edición. London, UK: Taylor & Francis, 2009.

[3] F. J. SOLTERO and D. J. BODAS, "Clasificadores inductivos para el

posicionamiento web," El profesional de la información, vol. 14, 2005.

[4] C. CHASCO, Econometría espacial aplicada a la predicción-extrapolación de

datos microterritoriales. Madrid: Publicaciones de Economía de la Comunidad

de Madrid, 2003.

[5] R. GIRALDO, "Introducción a la Geoestadística," ed. Bogotá, Colombia:

Universidad Nacional de Colombia. Sede Bogotá, 2014.

[6] J. MARTÍNEZ and A. DÍAZ, "Fundamentos de teledetección espacial," ed.

Ciudad de México, México D.C.: Comisión Nacional del Agua. Jefatura de

Control Cartográfico, 2005.

[7] G. BETANCOURT, "Las Máquinas de Soporte Vectorial (SVMs)," Scientia et

Technica Año XI, 2005.

[8] B. DIXON and V. UDDAMERI, GIS and Geocomputation for Water Resource

Science and Engineering Primera Edición ed. Southerm Gate, Chichester: John

Wiley & Sons, Ltd, 2016.

[9] F. LARA, "Artificial Neural Networks: An Introduction," Journal of the

Mexican Society of Information, vol. 3, 1998.

[10] R. J. SCHALKOFF, Artificial Neural Networks. New York: McGraw-Hill

Series in Computer Science, 1997.

[11] M. DÍAZ, "Gesoestadística Aplicada," ed. Ciudad de México, México D.C.:

Instituto de Geofísica (UNAM) - Instituto de Geofísica y Astronomía

(CITMA), 2002.

[12] L. ANSELIN, "The future of spatial analysis in the social sciences," Geographic

Information Sciences, vol. 5, 1999.

[13] R. HAINING, “Data problems in spatial econometric modeling”. En “New

directions in spatial econometrics”, eds. L. Anselin y R. Florax. Berlín:

Springer-Verlag, 1995.

84

[14] W. TOBLER, "Lattice Tuning," Geographical Analysis, vol. 11, pp. 36 - 44,

1979.

[15] R. MORENO and V. E. VALCARCE, Técnicas econométricas para el

tratamiento de datos espaciales: La econometría espacial. Barcelona: Edicions

de la Universitat de Barcelona, 2000.

[16] N. CRESSIE, Statistics for spatial data. New York, 1993.

[17] H. S. SICHEL, "An experimental and theoretical investigation of bias error in

mine sampling with special reference to narrow gold reefs," Trans. Inst. Min.

Metall. London, vol. 56, 1947.

[18] H. S. SICHEL, "Mine Valuation and Maximun Likelihood," ed. Johannesburg:

University Witwatersrand, 1949.

[19] D. G. KRIGE, "A Statistical Approach to Some Basic Mine Valuation

Problems on the Witwatersrand," Journal of the Chemical, Metallurgical and

Mining Society of South Africa, vol. 52, pp. 119-139, 1951.

[20] G. MATHERON, Traite de Geostatistique Apliquee, Tome I. Memoires bureau

de Recherches Geologiques et Minieres. Paris: Technip, 1962.

[21] F. J. SAMPER and J. CARRERA, Geoestadística. Aplicaciones a la

Hidrogeología Subterránea. Barcelona: Centro Internacional de Métodos

Numéricos en Ingeniería. Universitat Politécnica de Catalunya, 1990.

[22] J. GONZÁLEZ, "Desarrollo De Un Plan Estrategico En Una Sociedad De

Tasacion Basado En La Geoestadistica," Organización Industrial y Gestión de

Empresas, Escuela Superior de Ingenieros de Sevilla, Sevilla, España, 2011.

[23] M. E. BERNATE, M. P. GAMBA, A. L. PINEDA, and B. R. RIVERA,

"Estimación de información oculta por nubes y sus sombras en imágenes

satelitales empleando métodos geoestadísticos," ed. Bogotá D.C: Universidad

Distrital Francisco José de Caldas. Ingeniería Catastral y Geodesia, 2008.

[24] D. DIAZ, "Servicio GRID inteligente de clasificación de imágenes satelitales

utilizando redes neuronales artificiales," ed. Bogotá D.C: Universidad Distrital

Francisco José de Caldas. Maestría en Ciencias de la Información y las

Comunicaciones, 2012.

[25] L. ANSELIN, "Exploratory Spatial Data Analysis and Geographic Information

Systems," Painho M (ed) New tools for spatial analysis, pp. 45 - 54, 1994.

[26] J. W. TUKEY, Exploratory Data Analysis: Addison-Wesley Publishing

Company, 1977.

[27] M. A. TORAL, "El factor espacial en la convergencia de las regiones de la

Unión Europea: 1980-1996," Facultad de Ciencias Económicas y Empresariales,

Universidad Pontificia Comillas, Madrid, España, 2001.

85

[28] M. SALVADOR and P. GALLARDO, "Introducción a las Finanzas," ed:

Universidad de Zaragoza, 2010.

[29] A. W. WARRICK, D. E. MYERS, and D. R. NIELSEN, Geostatistical

Methods Applied to Soil Science. Methods of Soil Analysis. Part 1. Physical

and Mineralogical Methods- Agronomy Monograph. Madison: Soil Science

Society of America Book, 1986.

[30] M. ARMSTRONG, Basic linear geostatistics: Editorial Springer, 1998.

[31] J. Q. CUADOR, "La geoestadística, su surgimiento y evolución," Avances

(Ciencia, Tecnología y Medio Ambiente - CITMA), vol. 2, 2000.

[32] R. M. REICH and R. DAVIS, "Quantitative spatial analysis," in Course Notes,

C. S. University, Ed., ed. Fort Collins, Colorado, 2003.

[33] E. GILLELAND, " Improving forecast verification through network design,"

presented at the 17th Conference on Probablity and Statistics in the

Atmospheric Sciences, Seattle, WA, 2004.

[34] A. G. JOURNEL, "Non-parametric estimation of spatial distribution,"

Mathematical Geology, vol. 15, pp. 445-468, 1983.

[35] A. SOARES, "Geostatistical estimation of multi-phase structures,"

Mathematical Geology, vol. 24, pp. 149-160, 1992.

[36] J. A. RICHARDS and X. JIA, Remote Sensing Digital Image Analysis.

Berlin,Germany: Springer-Verlag, 1999.

[37] I. LIZARAZO, "Clasificación de la cobertura y del uso del suelo urbano usando

imágenes de satélite y algoritmos supervisados de Inteligencia Artificial," UD y

la GEOMÁTICA, vol. 1, 2008.

[38] G. BRISCOE and T. CAELLI, A Compendium of Machine Learning Volume

1: Symbolic Machine Learning: Intellect Books, 1996.

[39] L. GEOSYSTEMS, ERDAS Field Guide™, Seventh Edition ed. United States

of America: Leica Geosystems GIS & Mapping, LLC, 2003.

[40] M. T. ESCOBEDO and J. A. SALAS, "P. Ch. Mahalanobis y las aplicaciones

de su distancia estadística," CULCyT: Cultura Científica y Tecnológica, vol.

27, pp. 13-20, 2008.

[41] E. GUTIERREZ, "Aplicación de las máquinas de soporte vectorial para el

reconocimiento de matrículas ", Escuela Técnica Superior de Ingeniería (ICAI),

Universidad Pontificia Comillas, Madrid, España, 2007.

[42] J. R. QUINLAN, Discovering rules by induction from large collections of

examples. In Expert systems in the micro-electronic age. Edinburgh, Scotland:

D. Michie, 1979.

[43] J. R. QUINLAN, "Induction of decision trees," Machine Learning, vol. 1, pp.

81–106, 1986.

86

[44] J. R. QUINLAN, C4.5: Algorithm for machine learning. San Mateo: Morgan

Kaufmann, 1993.

[45] G. V. KASS, "An exploratory technique for investigating large quantities of

categorical data," Applied Statistics, vol. 29, pp. 119–127, 1980.

[46] L. BREIMAN, J. FRIEDMAN, C. J. STONE, and R. A. OLSHEN,

Clasification and Regression Trees. New York: CRC Press, 1984.

[47] F. IZAURIETA and C. SAAVEDRA, "Redes Neuronales Artificiales," Revistas

Charlas de Física - Universidad de Concepción, vol. 16, 1999.

[48] D. E. RUMELHART, G. E. HINTON, and R. J. WILLIAMS, "Learning

representations by backpropagating errors," Letters To Nature, vol. 323, pp.

533 - 536, 1986.

[49] J. FREEMAN and D. SKAPURA, Redes Neuronales: Algoritmos, Aplicaciones

y Técnicas de Programación. México: Addison Wesley, 1991.

[50] D. J. MATICH, "Redes Neuronales: Conceptos Básicos y Aplicaciones," ed.

Rosario: Universidad Tecnológica Nacional. Departamento de Ingeniería

Química. Grupo de Investigación Aplicada a la Ingeniería Química (GIAIQ),

2001.

[51] P. MELIN and O. CASTILLO, Hybrid Intelligent Systems for Pattern

Recognition Using Soft Computing: An Evolutionary Approach for Neural

Networks and Fuzzy Systems. Berlin: Springer, 2005.

[52] A. NACELLE, "Redes neuronales artificiales - Monografía vinculada con la

conferencia del Prof. Dr Eduardo Mizraji sobre: "Las redes neuronales: de la

biología a los algoritmos de clasificación"," ed. Montevideo: Núcleo de

Ingeniería Biomédica. Facultades de Medicina e Ingeniería. Universidad de la

República, 2009.

[53] R. WEBSTER and M. A. OLIVER, Geostatistics for Environmental Scientists

- Second Edition. Southern Gate, Chichester, England: John Wiley & Sons,

Ltd, 2007.

[54] G. MATHERON, Le krigeage universel - Part 1: École nationale supérieure

des mines de Paris, Cahiers du Centre de morphologie mathématique de

Fontainebleau, 1969.

[55] T. HENGLA, G. B. M. HEUVELINK, and D. G. ROSSITER, "About

regression-kriging: From equations to case studies," Computers & Geosciences,

vol. 33, pp. 1301–1315, 2007.

[56] N. MC KENZIE and P. RYAN, " Spatial prediction of soil properties using

environmental correlation," Geoderma, vol. 89, 1999.

[57] N. DRAPER and H. SMITH, Applied Regression Analysis. New York: second

ed. Wiley, 1981.

87

[58] R. CHRISTENSEN, Plane Answers to Complex Questions: The Theory of

Linear Models. New York: second ed. Springer, 1996.

[59] T. HENGL, A Practical Guide to Geostatistical Mapping, Second Edition ed.

Luxembourgo: Office for Official Publications of the European Communities,

2009.

[60] T. HENGL, G. HEUVELINK, and A. STEIN, "A generic framework for spatial

prediction of soil variables based on regressionkriging," Geoderma, vol. 122,

2004.

[61] R. CHRISTENSEN, Linear Models for Multivariate Time Series and Spatial

Data. New York: Second ed. Springer, 2001.

[62] R. CHRISTENSEN, Linear Models for Multivariate, Time Series, and Spatial

Data. New York, 1990.

[63] T. HENGL, G. B. M. HEUVELINK, and D. G. ROSSITER, "About

regression-kriging: from theory to interpretation of results," Computers &

Geosciences, vol. 33, pp. 1301–1315, 2007.

[64] P. KITANIDIS, "Generalized covariance functions in estimation,"

Mathematical Geology, vol. 25, pp. 525–540, 1994.

[65] J. CHILES and P. DELFINER, Geostatistics: modeling spatial uncertainly.

New York, 1999.

[66] A. PAPRITZ and A. STEIN, "Spatial prediction by linear kriging," Spatial

statistics for remote sensing, pp. 83-113, 1999.

[67] J. RIVOIRARD, "On the structural link between variables in kriging with

external drift," Mathematical Geology, vol. 34, pp. 797-808, 2002.

[68] J. NETER, M. H. KUTNER, C. J. NACHTSHEIM, and W. WASSERMAN,

Applied Linear Statistical Models, 4 ed. Irwin, Chicago: McGraw-Hill

Companies, 1996.

[69] C. DEUTSCH and A. JOURNEL, GSLIB: Geostatistical Software and User’s

Guide, second ed. New York: Oxford University Press, 1998.

[70] H. WACKERNAGEL, Multivariate Geostatistics: An Introduction with

Applications. Berlín: second ed. Springer, 1998.

[71] R. WEBSTER and M. A. OLIVER, Geostatistics for Environmental Scientists

Statistics in Practice Southern Gate, Chichester, England: John Wiley & Sons,

Ltd, 2001.

[72] S. AHMED and G. DE MARSILY, "Comparison of geostatistical methods for

estimating transmissivity using data on transmissivity and specific capacity,"

Water Resources Research, vol. 23, pp. 1717–1737, 1987.

88

[73] I. ODEH, A. MCBRATNEY, and D. CHITTLEBOROUGH, "Further results

on prediction of soil properties from terrain attributes: heterotopic cokriging

and regression-kriging," Geoderma, vol. 67, pp. 215-226, 1995.

[74] P. GOOVAERTS, Geostatistics for Natural Resources Evaluation. New York:

Oxford University Press, 1997.

[75] M. YEMEFACK, D. G. ROSSITER, and R. NJOMGANG, "Multi-scale

characterization of soil variability within an agricultural landscape mosaic

system in southern Cameroon," Geoderma, vol. 125, pp. 117–143, 2005.

[76] C. A. GOTWAY and W. W. STROUP, "A Generalized Linear Model

approach to spatial data analysis and prediction," Journal of Agricultural,

Biological, and Environmental Statistics, vol. 2, pp. 157-198, 1997.

[77] M. L. STEIN, Interpolation of Spatial Data: Some Theory for Kriging. Series

in Statistics. New York: Springer, 1999.

[78] E. J. PEBESMA, "Multivariable geostatistics in S: the gstat package,"

Computers & Geosciences, vol. 30, pp. 683–691, 2004.

[79] M. F. P. BIERKENS and P. A. BURROUGH, "The indicator approach to

categorical soil data I: Theory," Journal of Soil Science, vol. 44, pp. 361-368,

1993.

[80] S. L. HESSION, A. M. SHORTRIDGE, and M. N. TORBICK, "Categorical

models for spatial data uncertainty. In: Caetano, M., Painho, M. (Eds.),"

Proceedings of the 7th International Symposium on Spatial Accuracy

Assessment in Natural Resources and Environmental Sciences (Accuracy

2006). Instituto Geográphico Português, pp. 386-395, 2006.

[81] A. PAPRITZ, "Limitations of Indicator Kriging for Predicting Data with

Trend.," in StatGIS Conference Proceedings, Milos, Greece, 2009, pp. 1-6.

[82] A. G. JOURNEL, "Constrained interpolation and qualitative information,"

Mathematical Geology, vol. 18, pp. 269–286, 1986.

[83] E. PARDO-IGUZQUIZA and P. A. DOWD, " Multiple indicator cokriging

with application to optimal sampling for environmental monitoring,"

Computers & Geosciences, vol. 31, pp. 1-13, 2005.

[84] W. N. VENABLES and B. D. RIPLEY, Modern applied statistics with S, 4th

Edition ed. New York: Springer-Verlag, 2002.

[85] N. BAILEY, T. CLEMENTS, J. T. LEE, and S. THOMPSON, " Modelling soil

series data to facilitate targeted habitat restoration: a polytomous logistic

regression approach.," Journal of Environmental Management, vol. 67, pp. 395-

407, 2003.

[86] J. J. DE GRUIJTER, D. J. J. WALVOORT, and P. F. M. VAN GAANS, "

Continuous soil maps — a fuzzy set approach to bridge the gap between

89

aggregation levels of process and distribution models," Geoderma, vol. 77, pp.

169-195, 1997.

[87] G. BRAGATO, "Fuzzy continuous classification and spatial interpolation in

conventional soil survey for soil mapping of the lower Piave plain," Geoderma,

vol. 118, pp. 1-16, 2004.

[88] J. TRIANTAFILIS, W. T. WARD, I. O. A. ODEH, and A. B. MCBRATNEY,

"Creation and Interpolation of Continuous Soil Layer Classes in the Lower

Namoi Valley," Soil Science Society of America Journal vol. 65, pp. 403-413,

2001.

[89] F. CARRÉ and M. C. GIRARD, "Quantitative mapping of soil types based on

regression kriging of taxonomic distances with landform and land cover

attributes," Geoderma, vol. 110, pp. 241–263, 2002.

[90] T. HENGL, N. TOOMANIAN, H. I. REUTER, and M. J. MALAKOUTI,

"Methods to interpolate soil categorical variables from profile observations:

lessons from Iran," Geoderma, vol. 140, pp. 417–427, 2007.

[91] A. B. MCBRATNEY, J. J. DE GRUIJTER, and D. J. BRUS, "Spatial

prediction and mapping of continuous soil classes," Geoderma, vol. 54, pp. 39–

64, 1992.

[92] J. NETER, M. H. KUTNER, C. J. NACHTSHEIM, and W. E.

WASSERMAN, Applied Linear Statistical Models, 4th Edition ed.: McGraw-

Hill, 1996.

[93] J. D. PAOLA and R. A. SCHOWENGERDT, "A detailed comparison of

backpropagation neural networks and maximum likelihood classifiers for urban

landuse classification," IEEE transactions on Geoscience and Remote Sensing,

vol. 33, pp. 981 - 996, 1995.

[94] R. W. FITZGERALD and B. G. LEES, "Assessing the classification accuracy

of multisource remote sensing data," Remote Sensing of the Environment, vol.

47, 1994.

[95] G. GERMAN, M. GAHEGAN, and G. WEST, "Statistical and AI Techniques

in GIS Classification: A Comparison," in Proc. SIRC Conference, The

University of Otago, New Zelanda, 1999.

[96] I. KANELLOPOULOS, A. VARFIS, G. G. WILKINSON, and J. ME’GIER,

"Land-cover discrimination in SPOT HRV imagery using an artificial neural

network: a 20-class experiment," International Journal of Remote Sensing, vol.

13, pp. 917 - 924, 1992.

[97] M. GAHEGAN and G. WEST, "The Classification of Complex Geographic

Datasets: An Operational Comparison of Artificial Neural Network and

90

Decision Tree Classifiers," in Geocomputation Conference Proceedings -

University of Bristol, United Kingdom, 1998.

[98] M. PESARESI and J. A. BENEDIKTSSON, "Classification of Urban High-

Resolution Satellite imagery Using Morphological and Neural Approaches," in

Proceedings of the 2000 International Geoscience and Remote Sensing

Symposium (IGARSS'00), Honolulu, Hawai, 200.

[99] G. SCHIAVON, F. DEL FRATE, and C. SOLIMINI, "High Resolution Multi-

Spectral Analysis of Urban Areas with QuickBird Imagery and Sinergy with

ERS Data," in Geoscience and Remote Sensing Symposium IGARSS'03,

Melboure, 2003.

[100] F. DEL FRATE, G. SCHIAVON, and C. SOLIMINI, "Application of neural

networks algorithms to QuickBird imagery for classification and change

detection of urban area," Proceedings of International Geoscience And Remote

Sensing Symposium, pp. 20-24, 2004.

[101] G. TORO and I. LIZARAZO, "Evaluación de las Redes Neuronales Artificiales

Perceptrón Multicapa y Fuzzy-Artmap en la Clasificación de Imágenes

Satelitales," Ingeniería, vol. 17, pp. 61 - 7, 2012.

[102] J. ZHANG and G. M. FOODY, "Fully-fuzzy supervised classification of sub-

urban land cover from remotely sensed imagery: Statistical and artificial neural

network approaches," International Journal of Remote Sensing, vol. 22, pp.

615-628, 2001.

[103] J. E. RODRÍGUEZ, "Redes neuronales artificiales para la clasificación de

imágenes satelitales," Desarrollo sostenible y tecnología. AVANCES

Investigación en Ingeniería, 2008.

[104] P. M. ATKINSON and A. R. L. TATNALL, "Introduction Neural networks in

remote sensing," International Journal of Remote Sensing, vol. 18, pp. 699-709,

1997.

[105] K. J. HOWALD, "Neural network image classification," in Proceedings of the

ASPRS-ACSM Fall Convention, (Falls Church, VA: American Society for

Photogrammetry and Remote Sensing), 1989.

[106] G. E. MCCLELLAND, R. N. DEWITT, T. H. DEWITT, L. N. MATHESON,

and G. O. MOE, "Multispectral image-processing with a three-layer back-

propagation network," in Proceedings of the International Joint Conference on

Neural Networks, New York: I.E.E.E., 1989.

[107] G. F. HEPNER, T. LOGAN, N. RITTER, and N. BRYANT, "Artificial neural

network classification using a minimal training set: comparison to conventional

supervised classification," Photogrammetric Engineering and Remote Sensing,

vol. 56, pp. 469 - 473, 1990.

91

[108] I. D. DOWNEY, C. H. POWER, I. KANELLOPOULOS, and G. G.

WILKINSON, "A performance comparison of Landsat Thematic Mapper land

cover classification based on neural network techniques and traditional

maximum likelihood algorithms and minimum distance algorithms,"

Proceedings of the Annual Conference of the Remote Sensing Society

(Nottingham: Remote Sensing Society), pp. 518 - 528, 1992.

[109] S. E. DECATUR, "Application of neural networks to terrain classification,"

Proceedings of International Joint Conference on Neural Networks, vol. 1

(Piscataway, NJ: I.E.E.E.), pp. 283 - 288, 1989.

[110] O. K. ERSOY and D. HONG, "Parallel self-organizing, hierarchical neural

networks," I.E.E.E. Transactions on Neural Networks, vol. 1, pp. 167 - 178,

1990.

[111] M. G. TEWOLDE and P. CABRAL, "Urban Sprawl Analysis and Modeling in

Asmara, Eritrea," Remote Sensing, vol. 3, pp. 2148 - 2165, 2011.

[112] D. L. CIVCO, "Artificial neural networks for land cover classification and

mapping," International Journal of Geographical Information Systems, vol. 7,

pp. 173 - 186, 1993.

[113] G. AMEZQUITA, "Servicio GRID para la clasificación no supervisada de

imágenes satelitales aplicando autómatas celulares," ed. Bogotá D.C:

Universidad Distrital Francisco José de Caldas. Maestría en Ciencias de la

Información y las Comunicaciones, 2009.

[114] J. C. CAICEDO, "Elaboración de un modelo de servicios web para la

clasificación de imágenes digitales utilizando rough sets," ed. Bogotá D.C:

Universidad Distrital Francisco José de Caldas. Maestría en Ciencias de la

Información y las Comunicaciones, 2009.

[115] J. G. HOYOS, "Aplicación de algoritmos genéticos a la clasificación de

imágenes de satélite en el marco de los servicios GRID inteligentes," ed. Bogotá

D.C: Universidad Distrital Francisco José de Caldas. Maestría en Ciencias de

la Información y las Comunicaciones, 2009.

[116] N. A. LUGO and A. F. ROLDAN, "Desarrollo de un estudio comparativo de

topologías feed-forward y mapas autoorganizados de redes neuronales para la

comprensión de imágenes digitales," ed. Bogotá D.C: Universidad Distrital

Francisco José de Caldas. Ingeniería Electrónica, 2011.

[117] L. ESPAÑA and C. A. CAMACHO, "Implementación de un sistema prototipo

para la clasificación del Arazá (Eugenia Stipitata Mc Vaugh) por grado de

madurez utilizando redes neuronales artificiales," ed. Bogotá D.C: Universidad

Distrital Francisco José de Caldas. Ingeniería de Sistemas, 2009.

92

[118] J. C. AMAYA, D. CALDERÓN, and J. A. ESCUDERO, "Clasificación de

imágenes satelitales de alta resolución espacial aplicando el algoritmo Back-

Propagation con la utilización de variables espectrales texturales y geométricas

para la obtención de coberturas y usos del suelo en zonas urbanas," ed. Bogotá

D.C: Universidad Distrital Francisco José de Caldas. Ingeniería Catastral y

Geodesia, 2010.

[119] F. VAN DER MEER, "Classification of remotely-sensed imagery using an

indicator kriging approach: application to the problem of calcite-dolomite

mineral mapping," International Journal of Remote Sensing, vol. 17, pp. 1233-

1249, 1996.

[120] F. VAN DER MEER, "Performance characteristics of the indicator classifier on

simulated image data," International Journal of Remote Sensing, vol. 17, pp.

621-627, 1996.

[121] J. CARVALHO, A. SOARES, and A. BIO, "Improving satellite images

classification using remote and ground data integration by means of stochastic

simulation," Journal: International Journal of Remote Sensing, vol. 27, pp.

3375-3386, 2006.

[122] M. VAN MEIRVENNE and P. GOOVAERTS, "Accounting for spatial

dependence in the processing of multi-temporal SAR images using factorial

kriging," International Journal of Remote Sensing, vol. 23, pp. 371-387, 2002.

[123] A. A. ELDEIRY and L. A. GARCIA, "Comparison of Regression Kriging and

Cokriging Techniques to Estimate Soil Salinity Using Landsat Images," Journal

of Irrigation and Drainage Engineering, vol. 136, pp. 355-364, 2010.

[124] J. L. CHIANG, J. J. LIOU, C. WEI, and K. S. CHENG, "A Feature-Space

Indicator Kriging Approach for Remote Sensing Image Classification " IEEE

Transactions On Geoscience And Remote Sensing, vol. 52, 2014.

[125] Q. MENG, "Regression Kriging versus Geographically Weighted Regression for

Spatial Interpolation," International Journal of Advanced Remote Sensing and

GIS vol. 3, pp. 606-615, 2014.

[126] F. CARRÉ and M. C. GIRARD, "Quantitative mapping of soil types based on

regression kriging of taxonomic distances with landform and land cover

attributes," Geoderma, vol. 110, pp. 241-263, 2002.

[127] N. E. TSENDBAZAR, S. DE BRUIN, S. FRITZ, and M. HEROLD, "Spatial

Accuracy Assessment and Integration of Global Land Cover Datasets," Remote

Sensing, vol. 7, pp. 15804-15821, 2015.

[128] C. T. OMUTO and R. R. VARGAS, "Re-tooling of regression kriging in R for

improved digital mapping of soil properti," Geosciences Journal, vol. 19, pp.

157-165, 2015.

93

[129] S. ARAKI, K. YAMAMOTO, and A. KONDO, "Application of Regression

Kriging to Air Pollutant Concentrations in Japan with High Spatial

Resolution," Aerosol and Air Quality Research, vol. 15, pp. 234-241, 2015.

[130] C. ZENG, Y. LIU, A. STEIN, and L. JIAO, "Characterization and spatial

modeling of urban sprawl in the Wuhan Metropolitan Area, China,"

International Journal of Applied Earth Observation and Geoinformation, vol.

34, pp. 10-24, 2015.

[131] S. M and K. M, "Local regression models for spatial interpolation of urban heat

island—an example from Wrocław, SW Poland," Theoretical and Applied

Climatology, vol. 108, pp. 53-71, 2012.

[132] X. H. LIU, P. C. KYRIAKIDIS, and M. F. GOODCHILD, "Population-density

estimation using regression and area-to-point residual kriging," International

Journal of Geographical Information Science vol. 22, pp. 431-447, 2008.

[133] P. MATHER, Computer processing of remotely-sensed images: An

introduction, 3rd edition ed., 2004.

[134] Q. ISAAC and A. SIMON. (2004, 22/03/2015). Introducción al Diseño de

Experimentos para el Reconocimiento de Patrones.

[135] Q. WENG, Remote Sensing and GIS Integration: Theories, Methods, and

Applications. New York: McGraw-Hil, 2009.

[136] M. TUCEYRAN and A. K. JAIN, "Texture analysis," in Handbook of Pattern

Recognition and Computer Vision, Chapter 2, ed Singapore: World Scientific,

1993, pp. 235 - 276.

94

Anexos

Anexo 1

Estadísticas unibanda

Figura 1.A. Histogramas de frecuencia. Fuente: La investigación.

Tabla 1.A. Estadísticas por banda. Fuente: La investigación.

Banda 1 Banda 2 Banda 3 Banda 4

Mínimo 64 65 18 29

1° Cuartil 108 106 70 85

Mediana 125 128 80 95

3° Cuartil 141 146 98 106

Máximo 255 254 245 255

NA’s 0 0 0 0

95

Tabla 1.B. Matriz de Covarianza. Fuente: La investigación.


Banda 1 876.10 926.28 161.58 450.09

Banda 2 926.28 1019.82 131.89 496.40

Banda 3 161.58 131.89 602.51 297.48

Banda 4 450.09 496.40 297.48 432.74

Tabla 1.C. Matriz de Correlación. Fuente: La investigación.


Banda 1 1.00 0.98 0.22 0.73

Banda 2 0.98 1.00 0.17 0.75

Banda 3 0.22 0.17 1.00 0.58

Banda 4 0.73 0.75 0.58 1.00

Figura 1.B. Ploteos de Dispersión entre bandas. Fuente: La investigación.

96

Anexo 2

Selección mejor árbol de decisión

Tabla 2.A. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión

con la librería rpart. Fuente: La investigación.





Vías 20 0 151 5 0 0

Pastos 1 0 0 270 0 0

Nubes 4 0 0 0 136 0

Bosques 0 0 0 11 0 251

Tabla 2.B. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión

con la librería tree sin podar el árbol. Fuente: La investigación.





Vías 20 0 156 0 0 0

Pastos 0 0 6 260 1 4

Nubes 0 0 0 0 140 0

Bosques 0 0 0 0 0 262

Tabla 2.C. Matriz de confusión asociada a la clasificación realizada mediante Árboles de Decisión

con la librería tree con una poda el árbol. Fuente: La investigación.





Vías 20 0 156 0 0 0

Pastos 0 0 6 264 1 0

Nubes 0 0 0 0 140 0

Bosques 0 0 0 10 0 252

Terreno

Predicción

Terreno

Predicción

Terreno

Predicción

97

Tabla 2.D. Resultado de la evaluación temática de las clasificaciones realizadas con árboles de

decisión. Fuente: La investigación.

Error de la

clasificación

(%)

Índice Kappa

(%)

Porcentaje

Correctamente

Clasificado -

PCC(%)



Rango del

Intervalo de

Confianza

(%)

Límite

Inferior (%)

Límite

Superior (%)

Árboles de

Decisión

(rpart)

6,11 94,28 93,89 92,53 95,01 2,48

Árboles de

Decisión (tree)

sin poda

5,41 95,42 94,58 93,29 95,64 2,34

Árboles de

Decisión (tree)

con una poda

8,33 90,35 91,67 90,13 92,99 2,86

Figura 2.A. Árbol de decisión obtenido con la librería rpart. Fuente: La investigación.

Figura 2.B. Árbol de decisión obtenido con la librería tree sin poda. Fuente: La investigación.

Resultado

evaluado

Método

98

Figura 2.C. Árbol de decisión obtenido con la librería tree con poda. Fuente: La investigación.

Figura 2.D. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la

librería rpart. Fuente: La investigación.

99

Figura 2.E. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la

librería tree sin poda. Fuente: La investigación.

Figura 2.F. Clasificación de la imagen obtenida mediante el algoritmo Arboles de Decisión usando la

librería tree con poda. Fuente: La investigación.

100

Anexo 3

Selección mejor RNA

Tabla 3.A. Matriz de confusión asociada a la clasificación realizada mediante RNA con la librería

nnet. Fuente: La investigación.





Vías 26 12 148 0 0 0

Pastos 0 0 1 270 0 0

Nubes 0 0 0 0 140 0

Bosques 0 1 1 0 0 261

Tabla 3.B. Matriz de confusión asociada a la clasificación realizada mediante RNAcon la librería

neuralnet. Fuente: La investigación.





Vías 6 12 89 11 0 4

Pastos 0 0 0 260 0 1

Nubes 0 0 0 0 140 0

Bosques 0 1 0 0 0 257

Tabla 3.C. Matriz de confusión asociada a la clasificación realizada mediante RNA con la librería

RSNNS. Fuente: La investigación.





Vías 19 8 119 0 0 0

Pastos 13 0 0 271 114 0

Nubes 34 0 0 0 26 0

Bosques 0 0 0 0 0 232

Terreno

Predicción

Terreno

Predicción

Terreno

Predicción

101

Tabla 3.D. Resultado de la evaluación temática de las clasificaciones realizadas con RNA. Fuente: La

investigación.

Error de la

clasificación

(%)

Índice Kappa

(%)

Porcentaje

Correctamente

Clasificado -

PCC(%)



Rango del

Intervalo de

Confianza

(%)

Límite

Inferior (%)

Límite

Superior (%)

RNA (nnet) 5,00 95,75 95,00 93,75 96,01 2,26

RNA

(neuralnet) 8,68 92,62 91,32 89,75 92,67 2,91

RNA (RSNNS) 19,31 81,92 80,69 78,58 82,65 4,08

Figura 3.A. Clasificación de la imagen obtenida mediante el algoritmo RNA usando la librería nnet.


Figura 3.B. Clasificación de la imagen obtenida mediante el algoritmo RNA usando la librería

neuralnet. Fuente: La investigación.

Resultado

evaluado

Método

102

Figura 3.C. Estructura RNA usando la librería neuralnet. Fuente: La investigación.

Figura 3.D. Clasificación de la imagen obtenida mediante el algoritmo RNA usando la librería

RSNNS. Fuente: La investigación.

Figura 3.E. Ponderación del error medio cuadrático vs iteración mediante el algoritmo RNA usando

la librería RSNNS. Fuente: La investigación.

103

Anexo 4

Figura 4.A. Importancia de bandas en el método Bosques Aleatorios. Fuente: La investigación.

104

Anexo 5

Código R ######################################################## #ENRUTAMIENTO DIRECTORIO DE TRABAJO Y LLAMADO LIBRERÍAS# ######################################################## # La siguiente instrucción lo enruta a directorio en donde se encuentran los datos que se procesarán setwd("ruta origen de datos") getwd() # Se cargan las librerías necesarias para correr los algoritmos library(sp) library(grid) library(lattice) library(rgdal) library(raster) library(scatterplot3d) library(MASS) library(class) library(mda) # PARA OBTENER MATRIZ DE CONFUSIÓN library(vcd) # PARA OBTENER ÍNDICE KAPPA library(kernlab) # ALGORITMO SVM library(rpart)# ALGORITMO ARBOLES DE DECISIÓN library(tree)# ALGORITMO ARBOLES DE DECISIÓN library(foreign) library(maptools) library(randomForest) library(nnet) library(neuralnet) library(Rcpp) library(RSNNS) library(geoR) library(gstat) library(sgeostat) # Se carga la imagen que se procesará imagen<-stack("RECORTE.img") names(imagen)<-c("band1","band2","band3","band4") imagen #################################### #ESTADISTICAS UNIBANDA Y MULTIBANDA# #################################### # Desplegar imagen en combinación RGB-342 par(mfrow=c(1,1)) plotRGB(imagen, r=3, g=4, b=2) # Obteniendo histograma de la imagen hist(imagen) # Obteniendo estadísticas básicas resumen<-summary(imagen) resumen # Obteniendo matriz de covarianza covar<-cov(as.matrix(imagen)) covar # Obteniendo matriz de correlación corr<-cor(as.matrix(imagen)) corr # Gráfico combinado de histogramas y correlaciones pairs(imagen) ######################### #POLIGONOS DE LA MUESTRA# #########################

105

# Cargando shapefile que contiene polígonos de entrenamiento creados previamente en ArcGIS spterreno<-readOGR(dsn="ruta origen de datos",layer="Muestra_Completa") spterreno ############################### #ANALISIS SEPARABILIDAD VISUAL# ############################### #Se crea un raster del mismo tamaño de la imagen r<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) # Se sobre escribe el raster que se creó anteriormente con la información de clases definidas sobre los polígonos de entrenamiento tst <- rasterize(spterreno, r, field="Id_Cobertu") tst plot(tst) # Se une la información del raster anterior y de las 4 bandas de la imagen original y se crea una nueva imagen newimagen <- stack(imagen, tst) names(newimagen)<-c("band1","band2","band3","band4","clase") newimagen # Se crea un dataframe con la información de la nueva imagen nimagen <- as.data.frame(newimagen) # Se generan scatterplots bidimensionales entre todas las bandas fdata = factor(nimagen$clase) colores=c("yellow","blue","red","green","purple","chartreuse4") with(nimagen, plot(band1,band2,col=colores[fdata],pch=8)) legend("bottomright",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band1, band3, col=colores[fdata],pch=8)) legend("bottomright",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band1, band4, col=colores[fdata],pch=8)) legend("topleft",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band2, band3, col=colores[fdata],pch=8)) legend("bottomright",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band2, band4, col=colores[fdata],pch=8)) legend("topleft",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) with(nimagen, plot(band3, band4, col=colores[fdata],pch=8)) legend("topleft",legend=c("Edificaciones","Cuerpos de Agua","Vías","Pastos","Nubes","Bosques"),col = colores,pch=8) # Se generan scatterplots tridimensionales entre las bandas del visible scatterplot3d(nimagen$band1, nimagen$band2, nimagen$band3, color= nimagen$clase, pch=nimagen$clase) ######################################################### #OBTENCIÓN MUESTRA DE ENTRENAMIENTO (720 PUNTOS) CON MAS# ######################################################### # Se fija la semilla para iniciar el MAS set.seed(1) # Se seleccionan aleatoriamente 2160 puntos de los cuales 720 serán empleados como muestra de entrenamiento y los 1440 serán usados como muestra de validación p.sample <- spsample(spterreno,2160,"random") train <- sort(sample(1:2160, floor(720))) p.train <- p.sample[train,] # Distribución sobre la imagen de los 720 que se usarán como muestra de entrenamiento temp1<-over(p.train, spterreno) resp<-temp1$Id_Cobertu trainvals<-extract(imagen,p.train)

106

trainvals sp.train = SpatialPointsDataFrame(p.train, temp1) sp.train trainvals2 <- cbind (trainvals, resp) trainvals2 ####################################################### #OBTENCIÓN MUESTRA DE VALIDACION (1440 PUNTOS) CON MAS# ####################################################### # Se extraen los 1440 puntos restantes de la muestra de 2160 que serán usados como muestra de validación p.test <- p.sample[-train,] # Distribución sobre la imagen de los 14400 que se usarán como muestra de validación temp<- over(p.test, spterreno) response <- temp$Id_Cobertu testvals <- extract(imagen, p.test) sp.test = SpatialPointsDataFrame(p.test, temp) sp.test #################################################### #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO SVM# #################################################### ptm <- proc.time () svp <- ksvm(trainvals,resp, type="C-svc", kernel='rbf',kpar=list(sigma=2.5),C=50) # VECTORES DE SOPORTE alpha(svp) alphaindex(svp) b(svp) # PREDICCION SVM clasepred <- predict(svp,getValues(imagen)) prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- clasepred prediccion img_pred <-prediccion proc.time () - ptm predic_tiff<-writeRaster(img_pred,filename="clasificacion_svm.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf <- confusion(temp$clas, temp$Id_Cobertu) conf # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc <- 100 * sum(diag(conf))/nrow(temp) pcc # INDICE KAPPA k = Kappa(conf) k # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor<-pcc/100 Lim_sup<-(2*N*pccpor+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor)-(4*N*(pccpor^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf<-(2*N*pccpor+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor)-(4*N*(pccpor^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup Lim_inf Rango_IC<-Lim_sup-Lim_inf Rango_IC ####################### #DISTANCIA MAHALANOBIS# ####################### ptm <- proc.time () # Conversion de tipos de objetos train <- cbind(trainvals, resp) df.train <- as.data.frame(train) # Clase 1: EDIFICACION # Recuperacion de las 4 bandas para todos los pixeles de esta clase

107

edificacion <- df.train[df.train$resp==1,1:4] # Valor medio de clase 1 mean1 <- colMeans( edificacion ) mean1 # Matriz de covarianza de clase 1 var1<-var( edificacion ) var1 # Clase 2: CUERPOS DE AGUA cuerpos_agua <- df.train[df.train$resp==2,1:4] # Valor medio de clase 2 mean2 <- colMeans( cuerpos_agua ) mean2 # Matriz de covarianza clase 2 var2<-var( cuerpos_agua ) var2 # Clase 3: VIAS vias <- df.train[df.train$resp==3,1:4] # Valor medio de clase 3 mean3 <- colMeans( vias ) mean3 # Matriz de covarianza clase 3 var3<-var(vias) var3 # Clase 4: PASTOS pastos <- df.train[df.train$resp==4,1:4] # Valor medio de clase 4 mean4 <- colMeans( pastos ) mean4 # Matriz de covarianza clase 4 var4<-var( pastos ) var4 # Clase 5: NUBES nubes <- df.train[df.train$resp==5,1:4] # Valor medio de clase 5 mean5 <- colMeans( nubes ) mean5 # Matriz de covarianza clase 5 var5<-var( nubes ) var5 # Clase 6: BOSQUES bosque <- df.train[df.train$resp==6,1:4] # Valor medio de clase 6 mean6 <- colMeans( bosque ) mean6 # Matriz de covarianza clase 6 var6<-var( bosque ) var6 val <- getValues(imagen) dm=data.frame(dm1=mahalanobis(val, mean1, var1),dm2=mahalanobis(val, mean2, var2),dm3=mahalanobis(val, mean3, var3),dm4=mahalanobis(val, mean4, var4),dm5=mahalanobis(val, mean5, var5),dm6=mahalanobis(val, mean6, var6)) dm$clase=apply(dm, 1, which.min) pred_dm <- imagen[[1]] pred_dm[] <- as.numeric(dm[,7]) pred_dm[] proc.time () - ptm predic_tiff<-writeRaster(pred_dm,filename="clasificacion_mahalanobis.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_dm, p.test) # MATRIZ DE CONFUSION conf1 <- confusion(temp$Id_Cobertu, temp$clas) conf1 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc1 <- 100 * sum(diag(conf1))/nrow(temp) pcc1 #INDICE KAPPA k1 = Kappa(conf1) k1

108

# IINTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor1 <- pcc1/100 Lim_sup1<-(2*N*pccpor1+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor1)-(4*N*(pccpor1^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf1<-(2*N*pccpor1+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor1)-(4*N*(pccpor1^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup1 Lim_inf1 Rango_IC1<-Lim_sup1-Lim_inf1 Rango_IC1 ############################### #ARBOLES DE DECISION CON RPART# ############################### ptm <- proc.time () # CreaciÓn de un data frame con los datos requeridos train <- cbind(trainvals, resp) df.train <- as.data.frame(train) # Creación de un modelo de decision aumentando la complejidad del árbol # para el efecto se cambia el valor del parametro cp que, por default, es 0.01 # por default, se usa la métrica Gini rp2 <- rpart(resp ~ .,dat=df.train, method="class", control=rpart.control(cp=0.005)) # Detalles del árbol summary(rp2) # Ploteo del árbol de clasificación plot(rp2) text(rp2) dfval <- as.data.frame(getValues(imagen)) clasepred <- predict(rp2,dfval,type="class") clasepred pred_dt <- imagen[[1]] pred_dt[] <- as.numeric(clasepred) pred_dt[] proc.time () - ptm predic_tiff<-writeRaster(pred_dt,filename="clasificacion_arboles_rpart.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_dt, p.test) # MATRIZ DE CONFUSION conf2 <- confusion(temp$Id_Cobertu, temp$clas) conf2 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc2 <- 100 * sum(diag(conf2))/nrow(temp) pcc2 # INDICE KAPPA k2 = Kappa(conf2) k2 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor2 <- pcc2/100 Lim_sup2<-(2*N*pccpor2+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor2)-(4*N*(pccpor2^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf2<-(2*N*pccpor2+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor2)-(4*N*(pccpor2^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup2 Lim_inf2 Rango_IC2<-Lim_sup2-Lim_inf2 Rango_IC2 ####################################### #ARBOLES DE DECISION CON TREE SIN PODA# ####################################### tree1 <- tree(as.factor(resp) ~ .,data=df.train) # Descripción del árbol de clasificación tree1

109

# Ploteo árbol de clasificación plot(tree1) text(tree1) summary(tree1) cvtree1 <- cv.tree(tree1, FUN=prune.tree) plot(cvtree1) clasepred <- predict(tree1,dfval, type="class") clasepred pred_tree <- imagen[[1]] pred_tree[] <- as.numeric(clasepred) pred_tree[] predic_tiff<-writeRaster(pred_tree,filename="clasificacion_arboles_tree_sin_poda.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_tree, p.test) # MATRIZ DE CONFUSION conf3 <- confusion(temp$Id_Cobertu, temp$clas) conf3 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc3 <- 100 * sum(diag(conf3))/nrow(temp) pcc3 # INDICE KAPPA k3 = Kappa(conf3) k3 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor3 <- pcc3/100 Lim_sup3<-(2*N*pccpor3+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor3)-(4*N*(pccpor3^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf3<-(2*N*pccpor3+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor3)-(4*N*(pccpor3^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup3 Lim_inf3 Rango_IC3<-Lim_sup3-Lim_inf3 Rango_IC3 ########################################### #ARBOLES DE DECISION CON TREE CON UNA PODA# ########################################### poda1 <- prune.tree(tree1, best=6) poda1 summary(poda1) plot(poda1) text(poda1) clasepred <- predict(poda1,dfval, type="class") clasepred pred_tree_poda <- imagen[[1]] pred_tree_poda[] <- as.numeric(clasepred) pred_tree_poda[] predic_tiff<-writeRaster(pred_tree_poda,filename="clasificacion_arboles_tree_con_poda.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas <- extract(pred_tree_poda, p.test) # MATRIZ DE CONFUSION conf4 <- confusion(temp$Id_Cobertu, temp$clas) conf4 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc4 <- 100 * sum(diag(conf4))/nrow(temp) pcc4 # INDICE KAPPA k4 = Kappa(conf4) k4 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor4 <- pcc4/100

110

Lim_sup4<-(2*N*pccpor4+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor4)-(4*N*(pccpor4^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf4<-(2*N*pccpor4+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor4)-(4*N*(pccpor4^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup4 Lim_inf4 Rango_IC4<-Lim_sup4-Lim_inf4 Rango_IC4 #################### #BOSQUES ALEATORIOS# #################### ptm <- proc.time () myrf <- randomForest(as.factor (resp) ~ . , data=trainvals2, importance=TRUE, na.action=na.omit) varImpPlot(myrf) clasepred <- predict(myrf, getValues(imagen)) prediccion_rm<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion_rm[] <- clasepred proc.time () - ptm predic_tiff<-writeRaster(prediccion_rm,filename="clasificacion_randomforest.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion_rm, p.test) # MATRIZ DE CONFUSION conf5 <- confusion(temp$clas, temp$Id_Cobertu) conf5 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc5 <- 100 * sum(diag(conf5))/nrow(temp) pcc5 # INDICE KAPPA k5 = Kappa(conf5) k5 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor5<-pcc5/100 Lim_sup5<-(2*N*pccpor5+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor5)-(4*N*(pccpor5^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf5<-(2*N*pccpor5+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor5)-(4*N*(pccpor5^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup5 Lim_inf5 Rango_IC5<-Lim_sup5-Lim_inf5 Rango_IC5 ##################################################### #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO NNET# ##################################################### ptm <- proc.time () ideal1 <- class.ind(resp) set.seed(1) imagenANN <- nnet(trainvals2[,-5], ideal1, size=24,softmax=TRUE) clasepred <- predict(imagenANN, getValues(imagen), type="class") prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- clasepred prediccion img_pred <-prediccion proc.time () - ptm predic_tiff<-writeRaster(img_pred,filename="clasificacion_nnet.tif",format="GTiff",overwrite=TRUE) #plot.nnet(imagenANN,nid=T) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf6 <- confusion(temp$clas, temp$Id_Cobertu) conf6 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc6 <- 100 * sum(diag(conf6))/nrow(temp) pcc6

111

# INDICE KAPPA k6 = Kappa(conf6) k6 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor6<-pcc6/100 Lim_sup6<-(2*N*pccpor6+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor6)-(4*N*(pccpor6^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf6<-(2*N*pccpor6+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor6)-(4*N*(pccpor6^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup6 Lim_inf6 Rango_IC6<-Lim_sup6-Lim_inf6 Rango_IC6 ########################################################## #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO NEURALNET# ########################################################## ptm <- proc.time () edificaciones<-temp1$Id_Cobertu == '1' c_agua<-temp1$Id_Cobertu == '2' vias<-temp1$Id_Cobertu == '3' pastos<-temp1$Id_Cobertu == '4' nubes<-temp1$Id_Cobertu == '5' bosques<-temp1$Id_Cobertu == '6' nnet_trainvals2<-trainvals2 nnet_trainvals2 <- cbind(nnet_trainvals2,edificaciones) nnet_trainvals2 <- cbind(nnet_trainvals2, c_agua) nnet_trainvals2 <- cbind(nnet_trainvals2, vias) nnet_trainvals2 <- cbind(nnet_trainvals2, pastos) nnet_trainvals2 <- cbind(nnet_trainvals2, nubes) nnet_trainvals2 <- cbind(nnet_trainvals2, bosques) datannet_trainvals2<-as.data.frame(nnet_trainvals2) set.seed(1) #imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4,data=datannet_trainvals2,hidden=0,linear.output=FALSE,algorithm="backprop",learningrate=0.01) #imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4,data=datannet_trainvals2, hidden=0,rep=1, err.fct="ce", linear.output=FALSE) imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4, data=datannet_trainvals2, hidden = 0, threshold = 0.01, stepmax = 1e+05, rep = 1, startweights = NULL, learningrate.limit = NULL, learningrate.factor = list(minus = 0.5, plus = 1.2), learningrate=NULL, lifesign = "none", lifesign.step = 1000, algorithm = "rprop+", err.fct = "ce", act.fct = "logistic", linear.output = FALSE, exclude = NULL, constant.weights = NULL, likelihood = FALSE) #imagenNEURAL<-neuralnet(edificaciones+c_agua+vias+pastos+nubes+bosques~band1+band2+band3+band4,data=datannet_trainvals2,hidden=0,algorithm="backprop",err.fct="ce", act.fct="tanh",learningrate=0.01) plot(imagenNEURAL) clasepred <- compute(imagenNEURAL, getValues(imagen))$net.result maxidx <- function(arr) { return(which(arr == max(arr))) } idx1 <- apply(clasepred, c(1), maxidx) prediction <- c('edificaciones', 'c_agua', 'vias', 'pastos', 'nubes', 'bosques')[idx1] prediction[prediction == "edificaciones"] <- '1' prediction[prediction == "c_agua"] <- '2' prediction[prediction == "vias"] <- '3' prediction[prediction == "pastos"] <- '4' prediction[prediction == "nubes"] <- '5' prediction[prediction == "bosques"] <- '6' as.numeric(prediction)

112

prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- prediction prediccion img_pred <-prediccion proc.time () - ptm predic_tiff<-writeRaster(img_pred,filename="clasificacion_neuralnet.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf7 <- confusion(temp$clas, temp$Id_Cobertu) conf7 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc7 <- 100 * sum(diag(conf7))/nrow(temp) pcc7 # INDICE KAPPA k7 = Kappa(conf7) k7 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor7<-pcc7/100 Lim_sup7<-(2*N*pccpor7+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor7)-(4*N*(pccpor7^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf7<-(2*N*pccpor7+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor7)-(4*N*(pccpor7^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup7 Lim_inf7 Rango_IC7<-Lim_sup7-Lim_inf7 Rango_IC7 ###################################################### #CLASIFICACION DE LA COBERTURA DEL SUELO USANDO RSNNS# ###################################################### trainDecTargets <- decodeClassLabels(resp) med_b1<-sum(trainvals[,1])/length(trainvals[,1]) med_b2<-sum(trainvals[,2])/length(trainvals[,2]) med_b3<-sum(trainvals[,3])/length(trainvals[,3]) med_b4<-sum(trainvals[,4])/length(trainvals[,4]) desv_b1<-sum(abs(trainvals[,1]-med_b1))/length(trainvals[,1]) desv_b2<-sum(abs(trainvals[,2]-med_b2))/length(trainvals[,2]) desv_b3<-sum(abs(trainvals[,3]-med_b3))/length(trainvals[,3]) desv_b4<-sum(abs(trainvals[,4]-med_b4))/length(trainvals[,4]) norm_b1<-(trainvals[,1]-med_b1)/desv_b1 norm_b2<-(trainvals[,2]-med_b2)/desv_b2 norm_b3<-(trainvals[,3]-med_b3)/desv_b3 norm_b4<-(trainvals[,4]-med_b4)/desv_b4 norm_total<-cbind(norm_b1, norm_b2, norm_b3, norm_b4) med_imagen_b1<-sum(getValues(imagen)[,1])/length(getValues(imagen)[,1]) med_imagen_b2<-sum(getValues(imagen)[,2])/length(getValues(imagen)[,2]) med_imagen_b3<-sum(getValues(imagen)[,3])/length(getValues(imagen)[,3]) med_imagen_b4<-sum(getValues(imagen)[,4])/length(getValues(imagen)[,4]) desv_imagen_b1<-sum(abs(getValues(imagen)[,1]-med_imagen_b1))/length(getValues(imagen)[,1]) desv_imagen_b2<-sum(abs(getValues(imagen)[,2]-med_imagen_b2))/length(getValues(imagen)[,2]) desv_imagen_b3<-sum(abs(getValues(imagen)[,3]-med_imagen_b3))/length(getValues(imagen)[,3]) desv_imagen_b4<-sum(abs(getValues(imagen)[,4]-med_imagen_b4))/length(getValues(imagen)[,4]) norm_imagen_b1<-(getValues(imagen)[,1]-med_imagen_b1)/desv_imagen_b1 norm_imagen_b2<-(getValues(imagen)[,2]-med_imagen_b2)/desv_imagen_b2 norm_imagen_b3<-(getValues(imagen)[,3]-med_imagen_b3)/desv_imagen_b3 norm_imagen_b4<-(getValues(imagen)[,4]-med_imagen_b4)/desv_imagen_b4 norm_imagen_total<-cbind(norm_imagen_b1, norm_imagen_b2, norm_imagen_b3, norm_imagen_b4)

113

set.seed(1) modelRSNNS <- mlp(x=norm_total, #input data for training y=trainDecTargets) #output data (targets) for training #size = 3, #number of neurons in the hidden layer #learnFunc="Std_Backpropagation", #type of learning #learnFuncParams=c(0.1),#paramenters of the learning function (eta) #maxit = 5) #maximum number of iterations #inputsTest = testvals, #input data for testing #targetsTest = testDecTargets)#output data (targets) for testing ptm <- proc.time () predictionsmlp <- predict(modelRSNNS, norm_imagen_total) proc.time () - ptm predictionmlpclass <- apply(predictionsmlp, 1, which.max) plotIterativeError(modelRSNNS) prediccionRSNNS<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccionRSNNS[1:627295] <-predictionmlpclass prediccionRSNNS img_pred <-prediccionRSNNS predic_tiff<-writeRaster(img_pred,filename="clasificacion_RSNNS.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccionRSNNS, p.test) # MATRIZ DE CONFUSION conf8 <- confusion(temp$clas, temp$Id_Cobertu) conf8 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc8 <- 100 * sum(diag(conf8))/nrow(temp) pcc8 # INDICE KAPPA k8 = Kappa(conf8) k8 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor8<-pcc8/100 Lim_sup8<-(2*N*pccpor8+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor8)-(4*N*(pccpor8^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf8<-(2*N*pccpor8+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor8)-(4*N*(pccpor8^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup8 Lim_inf8 Rango_IC8<-Lim_sup8-Lim_inf8 Rango_IC8 ########################## ###REGRESSION KRIGING##### ########################## ptm <- proc.time () imagen.grid <- as(imagen, 'SpatialGridDataFrame') imagen.df <- as.data.frame(imagen.grid) coordinates(imagen.df) <- ~s1 + s2 str(imagen.df) sp.train.df <- as.data.frame(sp.train) coordinates(sp.train.df) <- ~x + y trainvals2 <- as.data.frame (trainvals2) modelo<-multinom(resp~band1+band2+band3+band4, data=trainvals2, model=TRUE) proc.time () - ptm str(modelo) residuos <-as.data.frame(modelo$resid) names(residuos)<-c("resid1","resid2","resid3","resid4","resid5","resid6") sp.train.df.II <- sp.train.df apred <- cbind(imagen.df$s1,imagen.df$s2) apred <- as.data.frame(apred) names(apred)<-c("x","y") gridded(apred) <- ~x + y

114

######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 1##### ######################################################## residuos1<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid1)) residuos1.geoR <- as.geodata(residuos1, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid1) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos1$V3) n.q <- (residuos1$V3-mean(residuos1$V3))/sd(residuos1$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos1) <- c("x", "y", "p") P.L.point <- point(residuos1) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza Clase 1 (Edificaciones)",xlab="Distancia", ylab="Semivarianza", type="l") detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones dir.hor <- seq(0, 0, length.out=50) dir.ver <- seq(0, 0, length.out=50) id <- seq (length.out=50) id <- rep("var1",50) y <- data.frame (P.L.v$n, P.L.v$bins,P.L.v$classic,dir.hor,dir.ver,id) names(y) <- c("np", "dist", "gamma", "dir.hor","dir.ver","id") class(y) <- c("variogram","gstatVariogram","data.frame") ##ESFERICO Sph.ml <- fit.variogra m(y, vgm(0.03, "Sph", 2000 ),fit.method = 2) # metodo 2 MV Sph.reml <- fit.variogram.reml (p~1, ~x+y, residuos1, model = vgm(0.03, "Sph",2000 )) # metodo MVR Sph.ols <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 6) # metodo 6 MCO Sph.wls <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 7) # metodo 7 MCP print(list(Sph.ml,Sph.reml,Sph.ols, Sph.wls)) dist.s <- P.L.v$bins Sph.ML <- variogramLine(vgm(0.03478942538, "Sph", 686.9064231,0), min=0, dist_vector=dist.s) Sph.RML <- variogramLine(vgm(0.287275471, "Sph", 2000,0), min=0, dist_vector=dist.s) Sph.WLS <- variogramLine(vgm(0.03846539924, "Sph", 1523.391824,0), min=0, dist_vector=dist.s) Sph.OLS <- variogramLine(vgm(0.02934907653, "Sph", 512.6882407,0), min=0, dist_vector=dist.s) resi.Sph.ML <- sum((P.L.v$classic-Sph.ML$gamma)^2)/50 resi.Sph.RML <- sum((P.L.v$classic-Sph.RML$gamma)^2)/50 resi.Sph.OLS <- sum((P.L.v$classic-Sph.OLS$gamma)^2)/50 resi.Sph.WLS <- sum((P.L.v$classic-Sph.WLS$gamma)^2)/50 print(data.frame(resi.Sph.ML,resi.Sph.RML,resi.Sph.OLS,resi.Sph.WLS)) plot(P.L.v$bins,P.L.v$classic,lty=2,pch=1,lwd=2, bg="yellow",type = "p", ylim=c(0,0.06), col =1,font.main=3,main = ("AJUSTE DE MODELO ESFERICO CLASE 1 (EDIFICACIONES)"),xlab="Distancia", ylab="Semivarianza") lines ( Sph.ML, col =2,lty=6,lwd=2) lines ( Sph.RML, col =3,lty=6,lwd=2) lines ( Sph.WLS, col =4,lty=6,lwd=2) lines ( Sph.OLS, col =5,lty=6,lwd=2) legend ("bottomright", legend = c("ML","RML","MCP","MCO"), lwd=2,lty = 6, col=2:5)

115

#### KRIGING SIMPLE coordinates(residuos1) <- ~x + y ks.resd1 <- krige(p~1, residuos1, apred, vgm(0.03846539924, "Sph", 1523.391824,0), nmax = 5, beta = 0) spplot(ks.resd1["var1.pred"], main = " Predicciones residuos clase 1 (Edificaciones) - kriging simple ") spplot(ks.resd1["var1.var"], main = "Varianzas residuos clase 1 (Edificaciones)- kriging simple ") ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 2##### ######################################################## residuos2<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid2)) residuos2.geoR <- as.geodata(residuos2, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid2) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos2$V3) n.q <- (residuos2$V3-mean(residuos2$V3))/sd(residuos2$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos2) <- c("x", "y", "p") P.L.point <- point(residuos2) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 2 (Cuerpos de agua)",xlab="Distancia", ylab="Semivarianza", type="l") detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones dir.hor <- seq(0, 0, length.out=50) dir.ver <- seq(0, 0, length.out=50) id <- seq (length.out=50) id <- rep("var1",50) y <- data.frame (P.L.v$n, P.L.v$bins,P.L.v$classic,dir.hor,dir.ver,id) names(y) <- c("np", "dist", "gamma", "dir.hor","dir.ver","id") class(y) <- c("variogram","gstatVariogram","data.frame") ##ESFERICO Sph.ml <- fit.variogra m(y, vgm(0.03, "Sph", 2000 ),fit.method = 2) # metodo 2 MV Sph.reml <- fit.variogram.reml (p~1, ~x+y, residuos2, model = vgm(0.03, "Sph",2000 )) # metodo MVR Sph.ols <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 6) # metodo 6 MCO Sph.wls <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 7) # metodo 7 MCP print(list(Sph.ml,Sph.reml,Sph.ols, Sph.wls)) dist.s <- P.L.v$bins #Sph.ML <- variogramLine(vgm(0.03252535161, "Sph", 906.0954905,0), min=0, dist_vector=dist.s) #Sph.RML <- variogramLine(vgm(0.04853004553, "Sph", 2000,0), min=0, dist_vector=dist.s) #Sph.WLS <- variogramLine(vgm(0.03186043207, "Sph", 673.5647533,0), min=0, dist_vector=dist.s) #Sph.OLS <- variogramLine(vgm(0.03153611357, "Sph", 885.9881405,0), min=0, dist_vector=dist.s)

116

resi.Sph.ML <- sum((P.L.v$classic-Sph.ML$gamma)^2)/50 resi.Sph.RML <- sum((P.L.v$classic-Sph.RML$gamma)^2)/50 resi.Sph.OLS <- sum((P.L.v$classic-Sph.OLS$gamma)^2)/50 resi.Sph.WLS <- sum((P.L.v$classic-Sph.WLS$gamma)^2)/50 print(data.frame(resi.Sph.ML,resi.Sph.RML,resi.Sph.OLS,resi.Sph.WLS)) plot(P.L.v$bins,P.L.v$classic,lty=2,pch=1,lwd=2, bg="yellow",type = "p", ylim=c(0,0.06), col =1,font.main=3,main = ("AJUSTE DE MODELO ESFERICO CLASE 2 (CUERPOS DE AGUA)"),xlab="Distancia", ylab="Semivarianza") lines ( Sph.ML, col =2,lty=6,lwd=2) lines ( Sph.RML, col =3,lty=6,lwd=2) lines ( Sph.WLS, col =4,lty=6,lwd=2) lines ( Sph.OLS, col =5,lty=6,lwd=2) legend ("bottomright", legend = c("ML","RML","MCP","MCO"), lwd=2,lty = 6, col=2:5) #### KRIGING SIMPLE coordinates(residuos2) <- ~x + y ks.resd2 <- krige(p~1, residuos2, apred, vgm(0.03186043207, "Sph", 673.5647533), nmax=5, beta = 0) spplot(ks.resd2["var1.pred"], main = "Predicciones residuos clase 2 (Cuerpos de agua) - kriging simple") spplot(ks.resd2["var1.var"], main = "Varianzas residuos clase 2 (Cuerpos de agua) - kriging simple") ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 3##### ######################################################## residuos3<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid3)) residuos3.geoR <- as.geodata(residuos3, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid3) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos3$V3) n.q <- (residuos3$V3-mean(residuos3$V3))/sd(residuos3$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos3) <- c("x", "y", "p") P.L.point <- point(residuos3) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 3 (Vías)",xlab="Distancia", ylab="Semivarianza", type="l") detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones dir.hor <- seq(0, 0, length.out=50) dir.ver <- seq(0, 0, length.out=50) id <- seq (length.out=50) id <- rep("var1",50) y <- data.frame (P.L.v$n, P.L.v$bins,P.L.v$classic,dir.hor,dir.ver,id) names(y) <- c("np", "dist", "gamma", "dir.hor","dir.ver","id") class(y) <- c("variogram","gstatVariogram","data.frame") ##ESFERICO Sph.ml <- fit.variogra m(y, vgm(0.03, "Sph", 2000 ),fit.method = 2) # metodo 2 MV Sph.reml <- fit.variogram.reml (p~1, ~x+y, residuos3, model = vgm(0.03, "Sph",2000 )) # metodo MVR

117

Sph.ols <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 6) # metodo 6 MCO Sph.wls <- fit.variogram(y, vgm(0.03, "Sph", 2000 ),fit.method = 7) # metodo 7 MCP print(list(Sph.ml,Sph.reml,Sph.ols, Sph.wls)) dist.s <- P.L.v$bins Sph.ML <- variogramLine(vgm(0.06486495189, "Sph", 811.1736869,0), min=0, dist_vector=dist.s) Sph.RML <- variogramLine(vgm(0.2913801768 , "Sph", 2000,0), min=0, dist_vector=dist.s) Sph.WLS <- variogramLine(vgm(0.06478527158, "Sph", 803.7201024,0), min=0, dist_vector=dist.s) Sph.OLS <- variogramLine(vgm(0.0627748535, "Sph", 780.912787,0), min=0, dist_vector=dist.s) resi.Sph.ML <- sum((P.L.v$classic-Sph.ML$gamma)^2)/50 resi.Sph.RML <- sum((P.L.v$classic-Sph.RML$gamma)^2)/50 resi.Sph.OLS <- sum((P.L.v$classic-Sph.OLS$gamma)^2)/50 resi.Sph.WLS <- sum((P.L.v$classic-Sph.WLS$gamma)^2)/50 print(data.frame(resi.Sph.ML,resi.Sph.RML,resi.Sph.OLS,resi.Sph.WLS)) plot(P.L.v$bins,P.L.v$classic,lty=2,pch=1,lwd=2, bg="yellow",type = "p", ylim=c(0,0.08), col =1,font.main=3,main = ("AJUSTE DE MODELO ESFERICO CLASE 3 (VÍAS)"),xlab="Distancia", ylab="Semivarianza") lines ( Sph.ML, col =2,lty=6,lwd=2) lines ( Sph.RML, col =3,lt y=6,lwd=2) lines ( Sph.WLS, col =4,lty=6,lwd=2) lines ( Sph.OLS, col =5,lty=6,lwd=2) legend ("bottomright", legend = c("ML","RML","MCP","MCO"), lwd=2,lty = 6, col=2:5) #### KRIGING SIMPLE coordinates(residuos3) <- ~x + y ks.resd3 <- krige(p~1, residuos3, apred, vgm(0.06478527158, "Sph", 803.7201024), nmax=5, beta = 0) spplot(ks.resd3["var1.pred"], main = "predicciones kriging simple") spplot(ks.resd3["var1.var"], main = "varianzas kriging simple") ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 4##### ######################################################## residuos4<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid4)) residuos4.geoR <- as.geodata(residuos4, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid4) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos4$V3) n.q <- (residuos4$V3-mean(residuos4$V3))/sd(residuos4$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos4) <- c("x", "y", "p") P.L.point <- point(residuos4) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 4 (Pastos)",xlab="Distancia", ylab="Semivarianza", type="l") legend(locator(1), c("Clásico"), col=c(1), lty=c(1)) detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones ########################################################

118

###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 5##### ######################################################## residuos5<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid5)) residuos5.geoR <- as.geodata(residuos5, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid5) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos5$V3) n.q <- (residuos5$V3-mean(residuos5$V3))/sd(residuos5$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos5) <- c("x", "y", "p") P.L.point <- point(residuos5) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 5 (Nubes)",xlab="Distancia", ylab="Semivarianza", type="l") legend(locator(1), c("Clásico"), col=c(1), lty=c(1)) detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones ######################################################## ###AJUSTE SEMIVARIOGRAMA Y KS PARA RESIDUOS CLASE 6##### ######################################################## residuos6<-as.data.frame(cbind(sp.train.df.II$x, sp.train.df.II$y, residuos$resid6)) residuos6.geoR <- as.geodata(residuos6, coords.col = 1:2, data.col = 3) # Objeto del tipo geodata (coordenadas y datos) hist(residuos$resid6) # Pruebas de normalidad de Shapiro-Wilk y Kolmogorov-Smirnov # Verificación del supuesto de normalidad para los métodos lineales de kriging. # Opciones para tranformar: # boxcox.fit(geoR), para un 'vector' de datos # boxcox.geodata(), para un objeto de tipo 'geodata' shapiro.test(residuos6$V3) n.q <- (residuos6$V3-mean(residuos6$V3))/sd(residuos6$V3) #Función prec n.o <- order(n.q) # Lista con las posiciones de los datos ordenados n.qo <- n.q[n.o] # Vector de cuantiles estandarizados y ordenados. Necesarios para prueba K-S ks.test(n.qo, pnorm) # Le hago prueba K-S para saber si los datos provienen de una normal library(sgeostat) library(geospt) names(residuos6) <- c("x", "y", "p") P.L.point <- point(residuos6) P.L.pair <- pair(P.L.point,num.lags=50,maxdist=4000) P.L.v <- est.variograms(P.L.point,P.L.pair,'p',trim=0.1) plot(P.L.v$bins,P.L.v$classic,lty=1, col =1,main = "Ajuste de Modelos de Semivarianza clase 6 (Bosques)",xlab="Distancia", ylab="Semivarianza", type="l")

119

legend(locator(1), c("Clásico"), col=c(1), lty=c(1)) detach("package:sgeostat") # Se inactiva sgeostat, dado que genera conflicto con geoR en algunas funciones zkp <- predict(modelo, newdata = imagen.df, type = "probs") zkp.class <- predict(modelo, newdata = imagen.df) zkp.df <- as.data.frame(zkp) names(zkp.df)<-c("predict1","predict2","predict3","predict4","predict5","predict6") prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- zkp.class prediccion img_pred <-prediccion predic_tiff<-writeRaster(img_pred,filename="clasificacion_multinom.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf9 <- confusion(temp$clas, temp$Id_Cobertu) conf9 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc9 <- 100 * sum(diag(conf9))/nrow(temp) pcc9 # INDICE KAPPA k9 = Kappa(conf9) k9 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor9<-pcc9/100 Lim_sup9<-(2*N*pccpor9+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor9)-(4*N*(pccpor9^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf9<-(2*N*pccpor9+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor9)-(4*N*(pccpor9^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup9 Lim_inf9 Rango_IC9<-Lim_sup9-Lim_inf9 Rango_IC9 class1.pred <- zkp.df$predict1+ks.resd1$var1.pred class2.pred <- zkp.df$predict2+ks.resd2$var1.pred class3.pred <- zkp.df$predict3+ks.resd3$var1.pred class4.pred <- zkp.df$predict4 class5.pred <- zkp.df$predict5 class6.pred <- zkp.df$predict6 cat.pred <- as.data.frame(cbind(class1.pred, class2.pred, class3.pred, class4.pred, class5.pred, class6.pred)) find.max.type <- function(v){ tmp <- v[which.max(v)] strsplit(names(tmp),"\\.")[[1]][1] } cat.pred$est.use <- apply(cat.pred,1,find.max.type) # busca el máximo clase <- function(x) { if(x == "class1") y <- 1 if(x == "class2") y <- 2 if(x == "class3") y <- 3 if(x == "class4") y <- 4 if(x == "class5") y <- 5 if(x == "class6") y <- 6 return(y) }

120

cat.pred$est.use.num <- sapply(cat.pred$est.use,clase) prediccion<-raster(ncol=1151,nrow=545,xmn=94630.37,xmx=106164.4,ymn=104466.9,ymx=109928.3) prediccion[1:627295] <- cat.pred$est.use.num prediccion img_pred <-prediccion predic_tiff<-writeRaster(img_pred,filename="clasificacion_regression_kriging.tif",format="GTiff",overwrite=TRUE) # EVALUACION DE EXACTITUD TEMATICA temp$clas<- extract(prediccion, p.test) # MATRIZ DE CONFUSION conf10 <- confusion(temp$clas, temp$Id_Cobertu) conf10 # PORCENTAJE CORRECTAMENTE CLASIFICADO pcc10 <- 100 * sum(diag(conf10))/nrow(temp) pcc10 # INDICE KAPPA k10 = Kappa(conf10) k10 # INTERVALO DE CONFIANZA AL 95% N <- length(p.test) pccpor10<-pcc10/100 Lim_sup10<-(2*N*pccpor10+(1.96^2)+1.96*((1.96^2)+(4*N*pccpor10)-(4*N*(pccpor10^2)))^(1/2))/(2*(N+(1.96^2))) Lim_inf10<-(2*N*pccpor10+(1.96^2)-1.96*((1.96^2)+(4*N*pccpor10)-(4*N*(pccpor10^2)))^(1/2))/(2*(N+(1.96^2))) Lim_sup10 Lim_inf10 Rango_IC10<-Lim_sup10-Lim_inf10 Rango_IC10

bibiana rocío rivera guerrero -...

Documents