diseÑo e implementaciÓn de un sistema de …‘o... · ejemplo de una red neuronal ......

74
DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA DE DETECCIÓN DE MALEZAS EN CULTIVOS CUNDIBOYACENSES. ANDRÉS FELIPE MONTENEGRO BERMÚDEZ CRISTIAN DAVID PARADA ROJAS UNIVERSIDAD CATÓLICA DE COLOMBIA FACULTAD DE INGENIERÍA PROGRAMA DE ELECTRÓNICA Y TELECOMUNICACIONES BOGOTÁ D.C 2015

Upload: vuonghanh

Post on 03-Oct-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA DE DETECCIÓN DE MALEZAS

EN CULTIVOS CUNDIBOYACENSES.

ANDRÉS FELIPE MONTENEGRO BERMÚDEZ

CRISTIAN DAVID PARADA ROJAS

UNIVERSIDAD CATÓLICA DE COLOMBIA

FACULTAD DE INGENIERÍA

PROGRAMA DE ELECTRÓNICA Y TELECOMUNICACIONES

BOGOTÁ D.C

2015

DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA DE DETECCIÓN DE MALEZAS

EN CULTIVOS CUNDIBOYACENSES.

ANDRÉS FELIPE MONTENEGRO BERMÚDEZ

CRISTIAN DAVID PARADA ROJAS

Tesis de grado para optar por el título de ingeniero electrónico y

telecomunicaciones

Asesor: Ing. MSc. Nathalia Serrato

UNIVERSIDAD CATÓLICA DE COLOMBIA

FACULTAD DE INGENIERÍA

PROGRAMA DE ELECTRÓNICA Y TELECOMUNICACIONES

BOGOTÁ D.C

2015

Nota de aceptación

Firma del presidente del jurado

Firma del jurado

Firma del jurado

AGRADECIMIENTOS

Muchas gracias a la Universidad Católica de Colombia y a la Ingeniera Nathalia

Serrato, por permitirnos ser parte de este proyecto, al ingeniero José León por su

gran ayuda y orientación.

Agradecemos a nuestros padres, quienes siempre fueron gran apoyo y ese motor

que constantemente nos impulsó a seguir adelante.

Gracias a todas aquellas personas que de una u otra forma contribuyeron al

desarrollo de este trabajo, que además de formarnos en la academia nos formó

como persona.

DEDICATORIA

A Dios por habernos permitido llegar hasta este punto,

a nuestra familia que fuez ese gran impulso y fuerza que

nos permitió llegar tan lejos, a nuestros amigos que nos

apoyamos mutuamente en nuestra formación profesional y

que hasta ahora, seguimos siendo amigos por habernos

ayudado a realizar este trabajo.

RESUMEN

Este proyecto se llevará a cabo en las instalaciones de la Universidad Católica de

Colombia contemplando el diseño de un sistema automático orientado hacia la

agricultura de precisión que ayude en la detección de agentes invasores basado en

diferentes técnicas de visión artificial en cultivos de la región Cundiboyacense,

haciendo capturas en diferentes lugares de dicha región para poder determinar si el

cultivo es óptimo, o si existe presencia de las diferentes especies de arvenses para

proseguir a hacer la diferenciación con el cultivo, tomando en cuenta diferentes

características, dicha información se procesará en una unidad central que contiene

un software desarrollado en Python-Opencv y Matlab, la unificación de procesos

desarrollados en estos programas se encargará de la toma de decisiones para una

detección afirmativa de malezas, este sistema es desarrollado con el fin de ayudar

a la corrección y prevención de errores en cuanto al control de calidad del cultivo y

las consecuencias que esto trae tanto para el suelo como para el agricultor, así

como el aumento en la eficiencia, todo este proceso se hará en base a

conocimientos previos en la parte de visión artificial, clasificadores y el

procesamiento digital de las imágenes.

CONTENIDO

INTRODUCCIÓN ................................................................................................................................ 12

1. PLANTEAMIENTO Y FORMULACIÓN DEL PROBLEMA ............................................................... 13

2. JUSTIFICACIÓN Y ANTECEDENTES ............................................................................................ 15

2.1 JUSTIFICACIÓN ....................................................................................................................... 15

2.2 ANTECEDENTES ...................................................................................................................... 15

3. OBJETIVOS ................................................................................................................................ 19

3.1 GENERAL ................................................................................................................................ 19

3.2 ESPECÍFICOS ........................................................................................................................... 19

4. MARCO REFERENCIAL .............................................................................................................. 20

4.1 PROCESAMIENTO DE IMÁGENES ................................................................................................ 20

4.1.1 Representación de una imagen. ...................................................................................... 21

4.1.2.Dispositivos de adquisición ............................................................................................ 22

4.2 CANAL RGB ............................................................................................................................. 25

4.3 CANAL HSV ............................................................................................................................. 28

4.4 RECONOCIMIENTO DE PATRONES .......................................................................................... 29

4.4.1 Umbralización. ................................................................................................................ 29

4.4.2 Segmentación. ................................................................................................................. 30

4.4.3 Binarización. .................................................................................................................... 30

4.4.4 Máscara. .......................................................................................................................... 30

4.4.5 Discriminador de áreas. ................................................................................................... 31

4.4.6 Opening. .......................................................................................................................... 31

4.4.7 Detección de bordes. ...................................................................................................... 33

4.7 APRENDIZAJE AUTOMÁTICO .................................................................................................. 34

4.8 CLASIFICADORES .................................................................................................................... 35

4.8.1 Clasificadores supervisados. ............................................................................................ 37

4.8.2 Clasificadores no supervisados. ....................................................................................... 37

4.8.3 Clasificadores semi-supervisados. ................................................................................... 38

4.8.4 Clasificadores por refuerzo.............................................................................................. 39

5. DESARROLLO DEL PROYECTO ................................................................................................... 53

5.1 Adquisición de imágenes ........................................................................................................ 53

5.1.1 Protocolo de selección .................................................................................................... 53

5.2 ALGORITMO DE PROCESAMIENTO ......................................................................................... 56

5.2.1 Descripción de bloques. .................................................................................................. 56

5.3 CREACIÓN BASE DE DATOS .................................................................................................... 59

6. RESULTADOS ............................................................................................................................ 60

6.1 ANÁLISIS DE RESULTADOS ...................................................................................................... 60

7. CONCLUSIONES ........................................................................................................................ 70

BIBLIOGRAFÍA ................................................................................................................................... 72

LISTA DE FIGURAS

Figura 1. Etapas de un sistema de visión artificial………………………………......21

Figura 2. Imagen a color Vs Canal R……………………………………….…………26

Figura 3. Imagen a color Vs Canal G………………………………………………….26

Figura 4. Imagen a color Vs Canal B...………………………………………………...27

Figura 5. Canal HSV Vs Imagen Original……………………………………………...28

Figura 6. Umbralización diferentes valores……………………………………………29

Figura 7. Fotografía de campo ......…………………………………..………………...30

Figura 8. Máscara de la fotografía de campo…………………………………………30

Figura 9. Proceso de erosión en imagen con ruido…………………………………..31

Figura 10. Proceso de dilatación en imagen con ruido……………………….………31

Figura 11. Opening en línea de cultivo………………………………………………...32

Figura 12. Cuadro rojo planta, azul maleza……………………………………………32

Figura 13. Detección de bordes método Canny………….……………………………33

Figura 14. Ejemplos de masificación de K-NN……………………………….………..41

Figura 15. Representación de caminos para la distancia euclidiana……….………43

Figura 16. Diagrama de algoritmo clasificador KNN…………………………….…….44

Figura 17. Plano de separación, Imagen……………..………………………….…….47

Figura 18. Diagrama de una máquina de aprendizaje .………………………….……47

Figura 19. Máquina de soporte vectorial no linealmente separable inducida por una

función kernel…………………………………………….……………………………....48

Figura 20. Ejemplo de una red neuronal completamente conectada……………….49

Figura 21. Vista general del cultivo……………………..………………………………53

Figura 22. Centro de interés, presencia de malezas...…………………………....….54

Figura 23. Iluminación natural inadecuada…………………………………..……….55

Figura 24. Diagrama de flujo del código de tratamiento de imagen………...…..…58

Figura 25. Imagen para procesamiento…………………………………………..…...60

Figura 26. Imagen para procesamiento..……………………………………………...60

Figura 27. Canales seleccionados……………………………………………………..63

Figura 28. Representación gráfica de datos en Weka……………………………….64

Figura 29. Matriz confusión red neuronal canal G……………………………………67

LISTA DE TABLAS

Tabla 1. Resultados de cada clasificador implementado………………………....…64

Tabla 2. Matriz de confusión clasificador KNN en canales RGB…………………...67

Tabla 3. Matriz de confusión clasificador Bayes en canales RGB…………………68

Tabla 4. Matriz de confusión máquinas de soporte vectorial en canales RGB...….68

INTRODUCCIÓN

La implementación de la agricultura de precisión ha tenido gran aumento en los

últimos años dentro de los países más desarrollados tomando como referencia

principal Argentina, Chile e incluso Uruguay. Argentina a partir del 2009 ha tenido

un avanzado crecimiento, pudiendo afirmar que un 30% de los productores

agrícolas utilizan por lo menos una técnica de agricultura de precisión,

posicionándose como líder latinoamericana en desarrollo y adopción de estas

tecnologías.

En la parte de automatización de cultivos se hace necesaria la utilización de algunos

sensores, para determinar las condiciones en las que el cultivo se encuentra, el uso

de esta automatización igual que la agricultura de precisión ha ido incrementando a

medida que avanza el tiempo más productores deciden implementarlas debido a la

necesidad de determinar y proporcionar las condiciones necesarias para una buena

calidad del cultivo, en este campo existe una gran variedad de dispositivos y

sensores que logran realizar esta función, con diversidad de usos dependiendo el

tipo de cultivo y la aplicación que se le desea dar.

Este proyecto pretende llevar a cabo el diseño de un sistema automático que facilite

la detección de agentes invasores como el pasto kikuyo en cultivos de la región

Cundiboyacense, haciendo capturas en diferentes partes para poder determinar si

el cultivo es óptimo, o si existe presencia de dicho pasto, mediante técnicas de visión

artificial se pretende llevar a cabo trabajando en torno al tratamiento de imágenes y

de características morfológicas que son suministradas a diferentes tipos de

clasificadores, lo ratifica que este sistema sea desarrollado con el fin de ayudar a la

corrección y prevención de errores en cuanto al control de calidad del cultivo, así

como el aumento en la eficiencia del mismo.

1. PLANTEAMIENTO Y FORMULACIÓN DEL PROBLEMA

La agricultura sin lugar a dudas ha sido un factor fundamental en el desarrollo de

las diferentes culturas que han poblado el planeta tierra, son notables los beneficios

que ésta aporta a la sociedad, la agricultura ha evolucionado con el pasar del tiempo

y esta no podía ser la excepción la inserción de la tecnología en procesos agro es

un hecho real y ha tomado una gran fuerza ya que sus ventajas son evidentes, la

región Cundiboyacense tiene vital importancia en el territorio nacional en torno a la

agricultura, ya que esta región cuenta con una gran área sembrada y toma vital

importancia en cultivos como la papa siendo este el de mayor extensión de

hectáreas sembradas.

Se sabe que la cantidad de cosecha recogida en una parcela agrícola no es

uniforme en toda ella, a pesar de haber realizado todas las operaciones que requiere

la agricultura (como laboreo, siembra, abonado etc.) de forma homogénea. Existen

factores ligados a las propiedades de los suelos, especies arvenses, microclimas,

herbicidas o agentes patógenos que afectan de manera selectiva y con distintos

grados de intensidad en zonas concretas, dando lugar a lo que se conoce con

variabilidad, sumado a esto las técnicas que se utilizan durante el proceso de

siembra hasta la recolección son rudimentarias y de carácter empírico, por lo que

no se cuenta con estándares y precisión en los diferentes procesos que se llevan a

cabo en donde se tienen variables como la salud, la productivas y la calidad, la

disminución en estos ámbitos reduce la capacidad de competición del mercado

agrícola colombiano a nivel mundial, reduciendo la posibilidad de ingresar en

mercados internacionales mediante acuerdos de libre comercio y tratados,

ratificando la importancia que se debe asignar al agro colombiano y las formas en

que en este se están ejecutando.

Existen diversas problemáticas en el sector agro industrial que afectan las

plantaciones de cultivos ubicados en esta región comúnmente conocidas como

malezas, encontrándose en varios casos invasores como el pasto kikuyo, razón

principal de esta investigación. La erradicación de dicho invasor se lleva a cabo

mediante la aplicación de agroquímicos, las malas técnicas de implementación de

estos químicos presentan efectos secundarios negativos sobre el suelo y los

cultivos. El sector agricultor colombiano en cuanto a aplicación e innovación

tecnificada, automatización y agricultura de precisión no es sobresaliente debido a

que existe carencia de investigación autómata e implementación de la misma, por

lo que se pretende abordar de forma contundente esta situación, brindando

alternativas y soluciones que procuran la unificación de las técnicas de precisión y

las alternativas químicas proyectando que la vinculación de la automatización brinde

un mayor alcance, mayor precisión, cantidades moderadamente reducidas de

aplicación herbicida y por ende menor impacto negativo a nivel del tratamiento de

suelos, calidad en los cultivos, efectos secundarios en animales y posteriormente

en el hombre.

2. JUSTIFICACIÓN Y ANTECEDENTES

2.1 JUSTIFICACIÓN

El presente proyecto se llevó a cabo con la intención de brindar y aportar una

solución eficaz en el campo agroindustrial, ya que este de alguna manera se

encuentra aislado debido a las políticas del agro a nivel nacional y la implementación

de técnicas y herramientas rudimentarias en los procesos aplicados a los cultivos.

Es posible observar que en las áreas rurales de Colombia no se cuenta con la

adecuada tecnificación de las fincas y los suelos, por lo que se hace necesario

impulsar la utilización de herramientas para la agricultura de precisión y es allí

donde se pretende abordar esta problemática introduciendo un sistema que

pretende llevar a cabo la detección de agentes externos que invaden cultivos de la

región Cundiboyacense, provocando alteraciones en el orden y productividad de los

mismos, la investigación y desarrollo en el sector agroeconómico posibilitará la

trazabilidad de múltiples actividades del proceso productivo, lo que podría contribuir

a la certificación de la agricultura, calidad integral y valor agregado a los productos

apoyados por las recientes políticas generadas por el gobierno.

2.2 ANTECEDENTES

La agricultura de precisión se conoce como la aplicación de tecnologías y principios

para administrar la variabilidad local y temporal asociada con todos los aspectos de

la producción agrícola a fin de mejorar el rendimiento de los cultivos, de acuerdo

con la filosofía de la agricultura de precisión, el estado de los cultivos durante sus

etapas de crecimiento es una información importante para las tareas de gestión y

cultivo de cosechas por lo que se ha encontrado que existen sistemas de visión

artificial desarrollados en base al área de la cubierta vegetal de la planta y la calidad

del cultivo1; otros sistemas implementan este mismo principio y adicionan ubicación

de las malas hierbas ya que no se puede olvidar que un objetivo importante en la

agricultura de precisión es reducir al mínimo el volumen de herbicidas que se aplican

1 KATAOKA, T. ; KANEKO, T. ; OKAMOTO, H. ; HATA, S. Crop growth estimation system using machine vision. EN: Industrial Electronics Society, IECON 39th Annual Conference of the IEEE, Vol 2; Pag. b1079 - b1083.

a los campos a través del uso de sistemas de gestión de malas hierbas específicas

del sitio2 el desarrollo de dichos sistemas de visión artificial se ha hecho calculando

el área de las hojas empleando un sistema de cámara y un sistema de

procesamiento de imágenes.

En un artículo del año 20133 se analizaron las características de un sistema de

detección de malas hierbas, dado que el suelo y las plantas reflejan cantidades

distintas de luz en una parte determinada del espectro cerca del rango del

infrarrojo(NIR) y del rango del rojo(RR), la clorofila de las plantas absorben gran

cantidad de luz roja, en el rango de longitudes de onda que van desde 630 a 660nm

(RR), mientras que la luz cercana al infrarrojo se encuentra entre 750 y

1200nm(NIR), destacando que la relación NIR/RR se encuentra entre 1.1 y 1.5 para

el suelo y entre 6 y 15 para las plantas con hojas verdes, es posible utilizar esta

característica para realizar la clasificación en conjunto con sistemas de visión

artificial ya que la reflexión de luz no distingue entre las maleza y el cultivo por lo

que se han desarrollado sistemas que incorporan diferentes cámaras constituidas

por un sensor RGB e infrarrojo cercano (NIR) del sensor, que cooperan con una

iluminación frontal blanco e iluminación frontal NIR que permiten hacer la división

en segmentos de las plantas en fondo en la imagen RGB, también es posible llevar

a cabo la identificación del color verde, mediante el procesamiento de imágenes

para la diferenciación de las malas hierbas y del cultivo, sectorizando la zona de

plantación y atacando de forma puntual las especies arvenses.4

Existen diferentes métodos para llevar a cabo el procesamiento de las imágenes,

sin olvidar la importancia de la extracción de características, las cuales sirven como

diferenciadores en lo que se desea clasificar y así poder implementar determinadas

técnicas de visión artificial, dentro de los diferentes tratamientos morfológicos o de

procesamiento se encuentran algunos como la segmentación, binarización5 la cual

consiste en transformar una imagen en escala de grises, a una imagen de blanco y

negro mediante una comparación o umbral. Este umbral define el valor límite del

pixel siendo negro si está por debajo de este umbral o blanco si está por encima,

2 TELLAECHE, A. ; BURGOS ARTIZZU, X.P. ; PAJARES, G. ; RIBEIRO, A. A Vision-based Classifier in Precision Agriculture Combining Bayes and Support Vector Machines, Intelligent Signal Processing. EN: WISP IEEE International Symposium on, 2007; Pag. 1 - 6 3 WEYRICH, M.YONGHENG Wang ; SCHARF, M. Quality assessment of row crop plants by using a machine vision system.

EN: Industrial Electronics Society, IECON 39th Annual Conference of the IEEE, 2013; Pag. 2466 - 2471 4 Moltoni Andrés, Moltoni Luciana. Pulverización selectiva de herbicidas: implicancias tecnológicas y económicas de su implementación en la argentina. EN: instituto de ingeniería rural. 5 BETANCOURT Diego Mauricio. Sistema de visión por computador para detectar hierba no deseada en

prototipo de cultivo de frijol usando ambiente controlado.64p. Trabajo de grado (Ingeniero). Universidad católica de Colombia. Facultad de ingeniería. Electrónica y telecomunicaciones. visión artificial.

otro método es la transformada de Hough6 la cual cuenta con aplicaciones en

operación actualmente, también se emplean diferentes clasificadores supervisados

como los KNN7 o vecino más cercano, que proporciona tiempos cortos de

procesamiento, en relación al número de muestras que se deben analizar y al

número de vecinos que se tienen en cuenta para dar un criterio de selección, lo que

hace que no sea necesario tener tantos recursos de hardware y la toma de

decisiones se realice en periodos cortos, clasificadores bayesianos tienen un

fundamento probabilístico que permite llegar a una elección con un porcentaje

determinado de error, máquinas de soporte vectorial y las redes neuronales8 las

cuales por medio de entrenamientos y pesos aleatorios en sistemas MISO capaces

de seleccionar características y establecer una muestra a una clase especifica que

determina si es o no un tipo de maleza9.

Se han realizado varios estudios con los cuales se logra hacer una observación de

la viabilidad de los diferentes tipos de suelos para poder determinar que cultivo es

óptimo en cada cual, pero esto no certifica que no exista otro tipo de problemática,

por lo tanto, estos estudios nos llevan a determinar también la técnica de agricultura

de precisión que se necesita, bien sea riego inteligente, detección de plagas, control

de temperatura, entre otros. Estas nuevas implementaciones permiten avanzar en

la agricultura de precisión, específicamente en la erradicación de malezas y brindar

diferentes soluciones prácticas en los diferentes terrenos donde es necesario,

existen diferentes robots o tractores que incorporan estos sistemas y cuentan con

la capacidad de pulverizar especies arvenses como AGROBOTIC o Robocrop10

quienes cuentan con un sistema de visión artificial que les permite desplazarse por

las líneas de cultivo en busca de malas hierbas, que son erradicadas posterior a su

detección mediante un corte mecánico reduciendo la implementación de herbicidas

favoreciendo el factor económico, salud, productividad y calidad lo que incrementa

la competitividad del agro haciéndolo más rentable, es por ello que actualmente la

6 GUO-QUAN Jiang, CUI-JUN Zhao, YONG-SHENG Si. A machine vision based crop rows detection for agricultural robots, Wavelet Analysis and Pattern Recognition (ICWAPR). EN: International Conference on. 2010.Pag. 114 - 118 7 CORREDOR GÓMEZ Jennifer Paola. Desarrollo de un sistema de control en la aplicación de técnicas selectivas de eliminación de maleza Bogotá 1 febrero 2011.Trabajo de grado (Ingeniero). Universidad Nacional de Colombia. Facultad de ingeniería. visión artificial. 8 RAMÍREZ OSUNA Daniela Guadalupe. Desarrollo de un método de procesamiento de imágenes para la discriminación de malezas en cultivos de maíz. Querétaro, mayo 2012. Trabajo de grado. (Ingeniero) Universidad Autónoma de Querétaro. 9 ESPINOSA GUALDRON Diana Judith, MUÑOZ NEIRA Milton Javier. Entrenamiento de una red neuronal artificial para la clasificación de hojas asociadas al cultivo de maíz. EN: UniSangil, Facultad de Ciencias Naturales e Ingeniería, San Gil Colombia 10La visión artificial: una tecnología versátil para la automatización de las máquinas agrícolas, Club Bologna 21ᵃ Reunión plenaria, Marzo 2011pag 74-80

mecanización y los sistemas automatizados11 han tomado tanta importancia en la

actualidad.

11 GARCÍA, V. VÁSQUEZ, A. Los Robots en el Sector Agrícola. EN: Universidad Politécnica de Madrid,

Departamento de Automática, Ingeniería Electrónica e Informática Industrial

3. OBJETIVOS

3.1 GENERAL

Diseñar e implementar un sistema de detección de malezas en cultivos en

la región Cundiboyacense.

3.2 ESPECÍFICOS

Realizar un banco de imágenes de diferentes cultivos de la región

Cundiboyacense.

Implementar algoritmos de tratamiento de imágenes para realiza extracción

de características.

Manipular algoritmos de clasificación para identificar especies arvenses en

cultivos.

4. MARCO REFERENCIAL

4.1 PROCESAMIENTO DE IMÁGENES

Es el proceso en el que es posible tomar fotografías o fotogramas de vídeo y

someterlos a un tratamiento con el fin de extraer determinadas características o

parámetros, o bien para elaborar nuevas imágenes procesadas como material de

salida. Es importante recalcar que el desarrollo de los métodos de procesamiento

digital de imágenes tiene su origen en dos áreas principales de aplicación: el

mejoramiento de la información pictórica para la interpretación humana, y el

procesamiento de datos de la imagen para la percepción de máquina autónoma en

el que se incluyen etapas de transmisión y/o almacenamiento de estos datos12.

El buen desempeño de un sistema de procesamiento de imágenes depende en gran

parte de los componentes que lo conforman, se pueden destacar y observar (figura

1) principalmente seis, los cuales son:

Captación: es el proceso mediante el cual se obtiene una imagen visual.

Pre procesamiento: incluye técnicas tales como la reducción de ruido y

realce de detalles.

Segmentación: es el proceso por el cual se divide una imagen en objetos de

interés.

Descripción: es la fase del proceso en la que se obtienen características

convenientes para diferenciar un tipo de objeto de otro.

Reconocimiento: es el proceso que asocia un significado a un conjunto de

objetos reconocidos.

12 Ramírez Escalante, Boris. Procesamiento Digital de Imágenes [en línea], Verona, [citado agosto, 2006]

Disponible en internet: <http://goo.gl/EABCQ3 >

Figura 1. Etapas de un sistema de visión artificial

Fuente: CHAVEZ, Procesamiento de imágenes [en línea], Puebla, Universidad de las Américas puebla,

[citado en 6 de Julio de 2015] disponible en internet: <http://goo.gl/JpssfW>13

4.1.1 Representación de una imagen. Una imagen digital puede ser considerada

como una matriz cuyos índices de fila y columna identifican un punto o lugar en el

espacio bidimensional dentro de la imagen y el correspondiente valor de elemento

de matriz identifica el nivel de gris en aquel punto. Los elementos de estos arreglos

digitales son llamados elementos de imagen o pixeles, es importante tener en

cuenta aspectos como:

Resolución: La resolución de una imagen es el número de filas y columnas

que forman los pixeles. Una imagen que tiene M filas y N columnas por lo

cual tiene una resolución MXN.

Definición: La definición de una imagen, también llamada profundidad de

pixel. indica el número de colores que se pueden ver en la imagen. La

profundidad de modulación es el número de bits usado para codificar la

intensidad del pixel.

Número de planos: Es el número de arrays de pixeles que componen la

imagen.

Ruido: Es cuando el valor de un pixel de una imagen no corresponde con la

realidad, causado generalmente por interferencias en la captación de la

13CHAVEZ, Procesamiento de imágenes [en línea], Puebla, Universidad de las Américas puebla, [citado en 6

de Julio de 2015] disponible en internet: <http://goo.gl/JpssfW>13

imagen y por el aumento de brillo en determinados pixeles.

Nitidez: Es la ausencia de ruido, entre más nítida sea una imagen menos

ruido tiene.

Se encontró que el ojo es incapaz de distinguir una sucesión rápida de imágenes, y

al observar su respuesta en frecuencia, se determinó que su comportamiento

correspondía al de un filtro paso-bajas, cuya frecuencia de corte se ubicaba en el

intervalo de 24 a 30 imágenes por segundo.

4.1.2. Dispositivos de adquisición. Uno de los factores importantes a tener en

cuenta en el procesamiento de imágenes es la cámara que será utilizada para la

obtención de las imágenes o datos, ya primero hay que evaluar qué proceso se

desea hacer para así saber elegir las propiedades de la misma, existen muchas

variables importantes a considerar como lo son la resolución, la salida, la cantidad

de tonos a utilizar (Monocromática o a color) entre otros. Considerando la relación

entre la resolución y precio hay que tener en cuenta que calidad se necesita ya que

al tener una mayor resolución podemos observar detalles muy pequeños de manera

más óptima, pero si no se necesita captar objetos demasiado pequeños la

resolución de la cámara no tiene mayor relevancia, sin llegar al punto de una cámara

con una resolución muy deficiente, dentro de las salidas es necesario evaluar entre

la salida de video compuesto, la salida de video digital y la salida RGB, ya que al

tener una salida de video digital se minimiza en gran parte la cantidad de ruido

presentes en la imagen que se puedan presentar por elementos transmisión de

datos, , por otro lado la salida RGB nos permite trabajar cada color por separado,

en cuanto a los tonos utilizados se hace necesario tener en cuenta que proceso se

realizara ya que al utilizar una cámara monocromática (escala de grises) el tiempo

de procesamiento se hace mucho más corto con relación a las cámaras a color, si

se hace necesario solo un reconocimiento de patrones de forma y tamaño las

monocromáticas son una buena opción además de que su costo es mucho menor.

Otro aspecto importante es la velocidad de obturación ya que si lo que se necesita

es tomar imágenes de objetos en movimiento se hace necesaria una velocidad de

obturación más pequeña generalmente existen cámaras con 1/60 hasta 1/10000

segundos de obturación. Por último hay dos factores menos relevantes pero

siempre es bueno tenerlos en cuenta como lo son la relación señal/ruido la cual

entre más grande sea mucha mejor calidad tendrá la imagen, por otro lado es bueno

tener en cuenta si todos los parámetros variables de la cámara se pueden hacer por

medio de software ya que de esta manera se puede pensar en una automatización

de este proceso según las necesidades de cada caso. En general se hace necesaria

una detallada observación del proceso que se quiera realizar ya que el precio varía

de gran manera con cada cambio de características y este es un factor muy

importante ya que no es conveniente invertir en una cámara con especificaciones

que a la larga no serán de utilidad.

4.1.3 Cámaras. Las cámaras utilizadas en visión artificial requieren de una serie de

tipologías que permitan el control del disparo de la cámara para capturar piezas que

pasan por delante de ella en la posición requerida. Son más sofisticadas que las

cámaras convencionales, ya que tienen que poder realizar un control completo de:

tiempos, señales, velocidad de obturación, sensibilidad, etc. Estas cámaras se

clasifican según sus características por14:

La tecnología del elemento sensor. (El sensor de imagen es el elemento de

una cámara electrónica que capta la luz que compone la imagen y la

convierte en una señal) Cámaras de tubo: Se basan en la utilización de un

material fotosensible que capta la imagen, siendo leída por un haz de

electrones. Cámaras de estado sólido CCD (Charge – Coupled – Device) las

cuales se basan en materiales semiconductores fotosensibles para cuya

lectura no es necesario un barrido electrónico.

La disposición física. Cámaras lineales. Se basan en un sensor CCD lineal

que usa una fila única de pixeles que escanea linealmente la imagen.

Construyen la imagen línea a línea realizando un barrido del objeto junto con

un desplazamiento longitudinal del mismo. Las cámaras lineales utilizan

sensores que tienen entre los 512 y 8192 pixel, con una longitud lo más corta

posible y gran calidad de imagen. El hecho de construir imágenes de alta

calidad a partir de líneas individuales, requiere de una alta precisión.

Cámaras matriciales. Se basan en un sensor CCD matricial, lo que permite

el análisis de imágenes bidimensionales. Hay una cámara específica para

cada aplicación, color, monocromo, alta definición, alta sensibilidad, alta

velocidad, infrarrojas, etc. El sensor cubre un área que está formada por una

matriz de pixeles. Los sensores de las cámaras modernas son todos de

tecnología CCD formados por miles de diodos fotosensibles posicionados de

forma muy precisa en la matriz.

Ópticas. Las ópticas se utilizan para transmitir la luz al sensor de la cámara

de una forma controlada para poder obtener una imagen enfocada de uno o

varios objetos. Para saber exactamente que óptica debe utilizarse hay que

14 Centro Integrado Politécnico ETI Tudela, Visión artificial [en línea], [citado en 26 de agosto de 2015], disponible en internet: <http://goo.gl/ZqOvSq>

tener en cuenta una serie de parámetros. Tamaño del sensor, Distancia del

objeto a la cámara y el campo de visión que deseamos abarcar. Se puede

calcular la óptica mediante la siguiente fórmula: Distancia=(Tamaño del

sensor*Distancia al objeto)/(Tamaño del objeto) En los sistemas de visión

artificial es necesario utilizar ópticas de calidad para tener la mejor imagen

posible y permitir las medidas con la mayor Elementos que componen las

lentes:

Anillo de enfoque: Cuanto más cerca enfocamos, más sobresale el objetivo.

Diafragma: Se gira para seleccionar la entrada de luz a la cámara. Su escala

suele ser: 16,11,...,1.8. A mayor número seleccionado, menor apertura del

diafragma y mayor profundidad de campo.

Velocidad de obturación: Selecciona el tiempo que estará abierto el

diafragma. Su escala suele ser: 1/1, 1/2,…, 1/250, 1/1000. Para obtener

imágenes nítidas de objetos que se desplazan a gran velocidad hay que

seleccionar velocidades de obturación altas.

Longitud focal. Valor en milímetros que nos informa de la distancia entre el

plano focal (CCD) y el centro del objetivo.

Profundidad de campo. Espacio en el cual se ve el objeto totalmente nítido.

Depende de la longitud focal de la lente empleada.

Precisión de la medida. Depende exclusivamente del campo de medida y de

la resolución de la cámara. Ejemplo: si el campo de visión es de 10x10 mm.

y utilizamos una cámara de 752x752 pixeles, la precisión de la medida en

cada eje sería de 0,013 mm/píxel, o lo que es lo mismo, un píxel equivale a

13 milésimas de milímetro. Uno de los factores importantes a tener en cuenta

en el procesamiento de imágenes es la cámara que será utilizada para la

obtención de las imágenes o datos, ya primero hay que evaluar qué proceso

se desea hacer para así saber elegir las propiedades de la misma, existen

muchas variables importantes a considerar como lo son la resolución, la

salida, la cantidad de tonos a utilizar (Monocromática o a color) entre otros.

Considerando la relación entre la resolución y precio hay que tener en cuenta

que calidad se necesita ya que al tener una mayor resolución podemos

observar detalles muy pequeños de manera más óptima, pero si no se

necesita captar objetos demasiado pequeños la resolución de la cámara no

tiene mayor relevancia, sin llegar al punto de una cámara con una resolución

muy deficiente, dentro de las salidas es necesario evaluar entre la salida de

video compuesto, la salida de video digital y la salida RGB, ya que al tener

una salida de video digital se minimiza en gran parte la cantidad de ruido

presentes en la imagen que se puedan presentar por elementos transmisión

de datos, por otro lado la salida RGB nos permite trabajar cada color por

separado, en cuanto a los tonos utilizados se hace necesario tener en cuenta

que proceso se realizara ya que al utilizar una cámara monocromática

(escala de grises) el tiempo de procesamiento se hace mucho más corto con

relación a las cámaras a color, si se hace necesario solo un reconocimiento

de patrones de forma y tamaño las monocromáticas son una buena opción

además de que su costo es mucho menor. Otro aspecto importante es la

velocidad de obturación ya que si lo que se necesita es tomar imágenes de

objetos en movimiento se hace necesaria una velocidad de obturación más

pequeña generalmente existen cámaras con 1/60 hasta 1/10000 segundos

de obturación. Por último hay dos factores menos relevantes pero siempre

es bueno tenerlos en cuenta como lo son la relación señal/ruido la cual entre

más grande sea mucha mejor calidad tendrá la imagen, por otro lado es

bueno tener en cuenta si todos los parámetros variables de la cámara se

pueden hacer por medio de software ya que de esta manera se puede pensar

en una automatización de este proceso según las necesidades de cada caso.

En general se hace necesaria una detallada observación del proceso que se

quiera realizar ya que el precio varía de gran manera con cada cambio de

características y este es un factor muy importante ya que no es conveniente

invertir en una cámara con especificaciones que a la larga no serán de

utilidad.

4.2 CANAL RGB

Un canal representa una opacidad variable dentro de una imagen. La escala de

grises del canal puede servir para mostrar o no determinada parte de una imagen.

El modo RGB es aditivo y se compone de tres canales: Rojo, Verde y Azul. A través

de cada uno de estos canales se proyecta una luz del color del canal que al unirse

muestra en la pantalla la imagen a todo color. En cada canal se encuentra una

imagen compuesta de blancos, negros y 254 tonalidades de gris. Un píxel negro del

canal Rojo indica que no deja pasar la luz roja, no tendrá color rojo. Por el contrario

un píxel blanco dejará pasar el total de la luz roja; el resto de tonalidades de gris

dejará pasar la cantidad que corresponda a cada tonalidad. Lo mismo sucede en

los otros canales como se puede apreciar en las siguientes figuras15.

15 MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de

septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC>

En la figura 2b se puede observar el cambio que ha sufrido la imagen original (figura

2a), al ser representada en el canal R, los pixeles de color rojo o en tonalidades

similares han adoptado valores diferentes y ahora se pueden ver en color blanco.

Figura 2. a) Imagen a color, b) Canal R

(a) (b)

Fuente: MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC> 16

En la figura 3b se puede observar el cambio que ha sufrido la imagen original (figura

3a), al ser representada en el canal G, los pixeles de color rojo o en tonalidades

similares nuevamente han adoptado valores diferentes y a diferencia de la

representación del canal anterior se pueden ver en tonalidades oscuras, al igual que

el color azul y el amarillo.

16 MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de

septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC>

Figura 3. a) Imagen a color, b) Canal G

(a) (b)

Fuente: MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC> 17

En la figura 4b se puede observar el cambio que ha sufrido la imagen original (figura

4a), al ser representada en el canal b, los pixeles de color azul han adoptado valores

diferentes y se representan en torno al color blanco, mientras que los demás colores

se pueden ver en tonalidades oscuras.

Figura 4. a) Imagen a color, b) Canal B

(a) (b)

Fuente: MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC>

17 MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de

septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC>

4.3 CANAL HSV

HSV es un modelo de color que tiene componentes para el tono y lo representa en

color rojo o azul, el segundo parámetro que representa es la saturación que es la

fuerza del color y por último el valor o brillo, gracias ello es posible observar

diferencias que canales como el RGB no permiten ver como lo son los colores

brillantes o pálidos18.

Figura 5. a) Canal HSV b) Imagen Original

(a) (b)

Fuente: Technolabsz Canal HSV [en línea], [citado en 5 de agosto de 2015] ,disponible en internet:< https://goo.gl/ov8IPJ>19

Tono: Es el color en sí mismo, resultante de la combinación de colores

primarios. Todos los matices están representados en un círculo cromático.

Los valores del círculo cromático están en el rango entre 0° y 360°.

Saturación: Este valor describe lo pálido que es el color. Un color

completamente insaturado es un matiz de gris. A medida que se incrementa

la saturación, el color adquiere un tono pastel. Un color completamente

saturado es puro. Los valores de saturación van del 0 al 100, del blanco al

color más puro.

Valor: Describe la luminosidad, la intensidad luminosa. Es la cantidad de luz

emitida por un color. Los valores van de 0 a 100.

18 Glosario de visión artificial [en línea], [citado en 26 de julio de 2015], disponible en internet

<http://goo.gl/OjaIfc> 19 Technolabsz Canal HSV [en línea], [citado en 5 de agosto de 2015] ,disponible en internet:< https://goo.gl/ov8IPJ

4.4 RECONOCIMIENTO DE PATRONES

Los patrones se obtienen a través de la extracción de características, para ello es

importante después de hacer la adquisición de la imagen tener presente que

procedimiento se quiere realizar, las características tanto de los objetos que se

desean detectar como de los objetos indeseados, debido a que en las imágenes

hay variedad de características, se busca una en especial que permita hacer en

primer lugar una preselección del contenido de la foto, es importante resaltar que la

detección se hace para malas hierbas en cultivos, por lo que se pretende descartar

todo aquello que en sus características cromáticas no posea el color verde, para la

detección de dicho color es necesario hacer la conversión de canal de la imagen de

RGB a HSV para facilitar este proceso de selección , esto con el fin de reducir el

tiempo de procesamiento y descartar diferentes elemento que pueden presentar

problemáticas a la hora de la detección y posiblemente generando un mayor

porcentaje de error o interferencias, para ello se implementaron diferentes

algoritmos de procesamiento de imágenes.

4.4.1 Umbralización. Es uno de los más importantes métodos de segmentación. El

objetivo es convertir una imagen en escala de grises a una nueva con sólo dos

niveles, de manera que los objetos queden separados del fondo.

Figura 6. Umbralización diferentes valores

Fuente: Inmensia, umbralizacion de la imagen [en línea] [citado en 8 de agosto de 2015], disponible en internet: < http://goo.gl/1TCwCi> 20

20 Inmensia, umbralizacion de la imagen [en línea] [citado en 8 de agosto de 2015], disponible en internet: < http://goo.gl/1TCwCi>

4.4.2 Segmentación. Subdivide una imagen en sus partes constituyentes u objetos,

con el fin de separar las partes de interés del resto de la imagen, por lo tanto el nivel

al que se lleva a cabo esta subdivisión depende del problema a resolver. En el

proceso de detectar las partes en una imagen se identifican bordes de la imagen, o

se segmenta en regiones, líneas o curvas, etc. Otra definición considera a la

segmentación como la clasificación de los puntos de la imagen (pixeles), indicando

las clases a la que pertenecen los diferentes pixeles. Los atributos básicos de

segmentación de una imagen son: la luminancia en imágenes monocromáticas, los

componentes de color en imágenes en color, textura, forma, etc.

4.4.3 Binarización. Este proceso transforma la imagen en escala de grises, a una

imagen de blanco y negro (unos y ceros) mediante una comparación o umbral. Este

umbral define el valor límite del pixel siendo negro si está por debajo de este umbral

o blanco si está por encima.

4.4.4 Máscara. Es una imagen que contiene únicamente dos colores, blanco y

negro, adopta la función de selección según el rango que sea asignado a esta,

pintando de color blanco los pixeles que están contenidos dentro del rango

especificado a la máscara, y descarta todo lo que es de diferente valor, pintándolo

de negro, haciendo posible aislar elementos indeseados.

Figura 7. Fotografía de campo

Fuente: autores

En la figura 7 se puede observar una imagen perteneciente al banco de imágenes obtenidos en terreno sin que se haya sometido a ningún tipo de tratamiento morfológico a diferencia de la figura 8 la cual es el resultado de la aplicación de una máscara.

Figura 8. Mascara de la fotografía de campo

Fuente: autores

4.4.5 Discriminador de áreas. Esta función evalúa la cantidad de pixeles

conectados, permitiendo descartar áreas de diferentes tamaños, haciendo un

filtrado de la imagen y resaltando los objetos de interés, esto se implementa para

tener en cuenta los objetos de un tamaño determinado, poder etiquetarlos como

deseados y descartar el resto, con el fin de eliminar ruido.

4.4.6 Opening. Este proceso está compuesto por una operación en conjunto en

donde interactúan en orden el proceso de erosión y posteriormente el de dilatación

aplicada a la imagen con el mismo elemento estructural.

Erosión Un píxel tomará el valor 1 en la imagen procesada, si ese mismo

pixel y todos sus vecinos valían 1 en la imagen original

Figura 9. Proceso de erosión en imagen con ruido

Fuente UNIVERSITAT DE GIRONA, Operaciones morfológicas [en línea], [citado en 25 de marzo de 2015], disponible en internet: <http://goo.gl/6JE52X>21

22 UNIVERSITAT DE GIRONA, Operaciones morfológicas [en línea], [citado en 25 de marzo de 2015],

disponible en internet: <http://goo.gl/6JE52X>

Dilatación Un píxel tomará el valor 1 en la imagen procesada, si ese mismo

pixel o cualquiera de sus vecinos valían 1 en la imagen original

Figura 10. Proceso de dilatación en imagen con ruido

Fuente UNIVERSITAT DE GIRONA, Operaciones morfológicas [en línea], [citado en 25 de marzo de 2015], disponible en internet: <http://goo.gl/6JE52X>22

Posterior a las definiciones de los diferentes procesos morfológicos se presenta un ejemplo por parte de los

autores con las respectivas imágenes tomadas en campo tal como se presenta a continuación en las respectivas

figuras.

Figura 11. Opening en línea de cultivo

Fuente: autores

Es posible apreciar en la figura 11 una de las imágenes capturadas en el cultivo

después de ser sometida a procesos morfológicos como el de Opening, el cual

permite eliminar todos los puntos blancos que quedan dispersos y se convierten en

pixeles indeseados y ello dificulta la diferenciación de las malezas como se puede

apreciar en la figura 12 en donde se ha encerrado en un cuadro de color azul las

malas hierbas y en rojo el cultivo.

22 UNIVERSITAT DE GIRONA, Operaciones morfológicas [en línea], [citado en 25 de marzo de 2015],

disponible en internet: <http://goo.gl/6JE52X>

Figura 12. Diferenciación de malezas y cultivo mediante tratamiento de imagenes

Fuente: autores

4.4.7 Detección de bordes. Es la técnica más común para detectar

discontinuidades significativas en el nivel de gris, debido a que son más frecuentes

en las aplicaciones prácticas. Los métodos de extracción de bordes de una imagen,

se basan en la diferencia que experimenta una característica en dos regiones

adyacentes y que indican la existencia de un borde. A su vez los bordes pueden

clasificarse por su anchura, ángulo de su pendiente de variación, y las coordenadas

de su punto medio23.

Dentro de los detectores de bordes es posible encontrar:

Derivada de segundo orden, operador Laplaciano.

Enlazado de bordes y detección de límites.

Procesamiento local.

Procesamiento global, usando la transformada de Hough

Canny

23 LA SERNA PALOMINO, Nora. ROMÁN CONCHA, Ulises. Técnicas de Segmentación en Procesamiento Digital de Imágenes. En: Universidad Nacional Mayor de San Marcos Facultad de Ingeniería de Sistemas e Informática, 2012.

Figura 13. a) imagen original, b) canny

(a) (b)

Fuente MATWORKS, Detección de bordes [en línea], [citado en 6 de octubre de 2015], disponible en

internet <http://goo.gl/jPpGJ3> 24

4.7 APRENDIZAJE AUTOMÁTICO

El aprendizaje automático se refiere a una de las ramas de la inteligencia artificial

que tiene como finalidad desarrollar técnicas que permitan a los computadores

simular un aprendizaje, es decir se trata de la creación de programas y algoritmos

que pueden realizar algún tipo de tarea a partir de una serie de ejemplos

suministrados previamente, si después de un tiempo la información que se aprendió

no varía se pueden llegar a hacer predicciones. Si esta técnica de aprendizaje

automático es llevada a bases de datos de una escala mucho mayor se comienza

a denominar como minería de datos.

La minería de datos ha dado lugar a una paulatina sustitución del análisis de datos

dirigido a la verificación por un enfoque de análisis de datos dirigido al

descubrimiento del conocimiento. La principal diferencia entre ambos se encuentra

en que en el último se descubre información sin necesidad de formular previamente

24MATWORKS, Detección de bordes [en línea], [citado en 6 de octubre de 2015], disponible en internet

<http://goo.gl/jPpGJ3>

una hipótesis. La aplicación automatizada de algoritmos de minería de datos permite

detectar fácilmente patrones en los datos, razón por la cual esta técnica es mucho

más eficiente que el análisis dirigido a la verificación cuando se intenta explorar

datos procedentes de repositorios de gran tamaño y complejidad elevada25. Esta

técnica tiene como propósito general descubrir, extraer y almacenar información

importante y relevante de bases de datos mediante programas de búsqueda de

patrones, relaciones globales, desviaciones y diferentes indicadores.

Los programas mineros son pensados y creados por los usuarios, en los que se

emplean técnicas diferentes para la “explotación” de los datos, tales como clúster,

asociaciones, clasificación, visualización, redes neuronales, algoritmos genéticos,

detección de desviaciones, entre otros. Todos ellos requieren bases de datos de

tamaño considerable para que puedan ser eficientes.

4.8 CLASIFICADORES

Un clasificador es un algoritmo que se usa para asignar un elemento de entrada que

no posee ningún tipo de etiqueta o clase a una categoría en específico que es

conocida con anterioridad, estos algoritmos permiten ordenar por clases todos los

elementos que entren en el sistema a partir de alguna característica extraída.

Una de las formas de implementar un clasificador es seleccionar un conjunto de

ejemplos etiquetados y tratar de definir una regla que permita poner una etiqueta a

cualquier otro dato de entrada.

La primera fase que se debe de tener en cuenta para llevar a cabo el proceso de

clasificación es la de entrenamiento, la finalidad de esta fase es construir un

conjunto para que los objetos que se han clasificado como ciertos, puedan ser

reconocidos. El conjunto de entrenamiento debe contener una lista de objetos con

tipos conocidos. Idealmente este conjunto de entrenamiento debería contener

muchos ejemplos, de este modo, se incluirían objetos comunes y no comunes. Para

crear el conjunto de entrenamiento se requiere una fuente de objetos clasificados

de forma cierta. Después de que se ha construido el clasificador se debe medir la

precisión. Este paso es necesario tanto en la aplicación del clasificador como

también para poder compararlo con otros clasificadores diferentes. La precisión se

puede determinar aplicando al clasificador un entrenamiento independiente de un

conjunto de objetos de los que se conoce la clasificación. Se hace uso de conjuntos

25 MORENO GARCÍA, María, MIGUEL QUINTALES, Luis, GARCÍA PEÑALVO, Francisco, POLO MARTIN,

José. Aplicación de técnicas de minería de datos en la construcción y validación de modelos predictivos y asociativos a partir de especificaciones de requisitos de software. EN: Universidad de Salamanca, España.

conocidos ya que a veces no se tienen las fuentes necesarias para construir un

nuevo modelo que se utilice puramente para su testeo.

Suponiendo el caso particular de dos clases, a las que se asignan los valores 0 y 1

respectivamente. La información disponible de cada muestra a clasificar vendrá

dada por un número finito d de variables reales. En conjunto, estas variables

componen un vector 𝑥 ∈ ℝ𝑑 que constituye una muestra. Para modelar la

incertidumbre sobre a qué clase pertenece una muestra, se asume que existen unas

probabilidades a priori 𝑃0 y 𝑃1 para las dos clases. Para modelar la relación entre

las clases a la que una muestra pertenece y la muestra en sí (incluyendo la

incertidumbre o ruido del proceso de medida), se asume que un objeto de la clase

𝑦 ∈ {0,1} engendra una muestra aleatoria con una función de distribución

condicionada a la clase 𝐹𝑌(𝑥). Las muestras aleatorias 𝑋 (las que son “observables”

en este proceso) se generan en dos etapas: una clase al azar 𝑦 ∈ {0,1} se

selecciona primero de acuerdo con las probabilidades a priori {𝑃0, 𝑃1 }; entonces la

muestra observada 𝑋 se selecciona de acuerdo a la distribución condicionada a la

clase 𝐹𝑦. Dada una realización de la muestra medida, 𝑋 = 𝑥 , el problema con el que

se encuentra el clasificador es el de asignar la muestra creada 𝑥 a una de las clases,

0 o 1. Por lo tanto, un clasificador o regla de decisión en este caso es simplemente

un mapeo 𝑔: ℝ𝑑 → {0,1} que indica la clase 𝑔(𝑥) a la que una muestra 𝑋 = 𝑥 debe

ser asignada26.

Dado un clasificador g, su desempeño de ejecución se da por su probabilidad de

error:

𝐿(𝑔) = 𝑷{𝑔(𝑥) ≠ 𝑌} Ecuación 1

Estos algoritmos de clasificación se pueden dividir o clasificar en 4 grandes grupos

los cuales son los clasificadores supervisados, no supervisados, semi-supervisados

y por refuerzo.

26 MATEO JIMÉNEZ, Fernando. Redes neuronales y preprocesado de variables para modelos y sensores en bioingeniería, Valencia, Junio de 2012

4.8.1 Clasificadores supervisados. Los algoritmos de clasificación supervisados

son comúnmente usados en circunstancias en donde se conoce de antemano el

número de clases y cada una de sus denominaciones, este sistema de clasificación

consiste en que al entrar una muestra nueva para poderla clasificarla se tiene en

cuenta la información que se pueda extraer de un conjunto de muestras divididas

en clases y la decisión de una regla de clasificación. Este tipo de algoritmos trabajan

sobre una información previamente suministrada como un conjunto de muestras,

patrones, prototipos o ejemplos de entrenamiento que son tomados como las

representaciones de las clases y además tienen una etiqueta con la clase correcta.

Este tipo de conjuntos que están definidos o etiquetados correctamente son

llamados conjunto de entrenamiento y son los que se usan para la clasificación de

las nuevas muestras.

Dentro de los algoritmos de clasificación supervisada se encuentran aquellos que

usan criterios de vecindad, por lo tanto, en general cualquier circunstancia basada

en clasificación supervisada que tenga criterios de vecindad se caracteriza así:

Sea E el espacio de representación de un determinado problema en el cual se tienen

M clases, de manera que formen una partición de E. Se dispone además de N

prototipos 𝑥1, 𝑥2, … , 𝑥𝑁 pertenecientes al espacio E, que se toman como conjunto de

entrenamiento, el cual se representa por

𝑇𝑆 = {𝑋, Ω} = {(𝑥1, 𝜔1), (𝑥2, 𝜔2), (𝑥𝑁, 𝜔𝑁)} Ecuación 2

El problema consistirá en que, dada una nueva muestra 𝑥 ∈ 𝐸, estadísticamente

independiente del conjunto {𝑋, Ω} que puede estar contenida en cualquiera de las M

clases, determinar a qué clase del espacio pertenece. Este procedimiento es

conocido como Regla de Clasificación o Clasificador y se representa como:

𝛿: 𝐸 → Ω, 𝛿(𝑥) = 𝜔𝑖 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔𝑢𝑛 𝑖 = 1, … , 𝑀 Ecuación 3

Es decir, el clasificador determina a qué clase del espacio de representación

pertenece la nueva muestra x, teniendo en cuenta la distancia determinada por una

métrica entre x y los prototipos del conjunto de entrenamiento.

4.8.2 Clasificadores no supervisados. Los algoritmos de clasificación no

supervisada, a diferencia de los de clasificación supervisada, no disponen de un

reconocimiento de patrones conjunto de entrenamiento, y valiéndose de algoritmos

de agrupamiento intentan construirlo. Al no disponer de un conjunto de

entrenamiento, se puede decir que no se tiene un conocimiento previo de las

etiquetas de los patrones, por lo tanto, para poder hacer una clasificación se

necesita un proceso previo de análisis de los datos que se conoce como

clasificación no supervisada o técnicas de agrupamiento (clustering), que

proporciona un conocimiento sobre la estructura de los datos. El objetivo del

agrupamiento es clasificar un conjunto de objetos en grupos, de forma tal que los

objetos dentro de un grupo posean un alto grado de semejanza, mientras que los

pertenecientes a grupos diferentes sean poco semejantes entre sí. El aprendizaje

no supervisado se usa cuando se dispone de muestras sin etiquetas de clase,

cuando los patrones pueden variar con el tiempo, por lo que es necesario primero

procesar los datos para luego clasificar. La principal ventaja que presenta la

clasificación no supervisada es que se puede obtener un conjunto de entrenamiento

empleando muestras no etiquetadas valiéndose de algoritmos de agrupamiento.

El agrupamiento es una herramienta muy utilizada en distintos contextos como la

recuperación de Información y la minería de textos, el procesamiento de secuencias

descriptoras de genes y proteínas, el seguimiento y detección de sucesos en un

flujo continuo de noticias, la segmentación de imágenes, la compresión de datos, el

procesamiento de bases de datos espaciales, la clasificación de zonas geográficas,

la comprensión de imágenes de satélites, la visualización de datos, la prospección

geológica, la organización de documentos en bibliotecas, y en muchas otras

aplicaciones como la estructuración de grandes volúmenes de datos.

Debido a que este tipo de clasificación o agrupamiento tiene una gran diversidad de

algoritmos creados se puede hacer una nueva clasificación de los mismos por la

forma en que se procesan los objetos como estáticos, incrementales o dinámicos,

por la forma en que se organizan los grupos que se obtienen como jerárquicos,

particionales, basado en densidad e híbridos, por la pertenencia de los objetos a los

grupos de agrupamiento como disjuntos o solapados y por ultimo por el mecanismo

en que se basan para agrupar como de pasada simple, basada en grafos, de

optimización o basados en árboles.

4.8.3 Clasificadores semi-supervisados. Este tipo de algoritmos son una de las

clases de las técnicas de aprendizaje automático en la cual se usan datos de

entrenamiento que han sido previamente etiquetados como también algunos no

etiquetados (por lo general la proporción es desigual teniendo una gran cantidad de

datos no etiquetados y unos pocos etiquetados), gracias a varias investigaciones se

ha concluido que el hecho de usar unos poca cantidad de datos etiquetados junto

con los datos no etiquetados aumenta de manera significativa la exactitud del

aprendizaje del sistema. La adquisición de datos etiquetados para resolver un

problema suele requerir un agente humano capacitado para clasificar de forma

manual los ejemplos de entrenamiento. Un ejemplo de técnica que utiliza

aprendizaje semi-supervisado es el co-entrenamiento, donde se entrenan dos o

más sistemas cada uno en un conjunto de ejemplos, pero de forma que cada

sistema utiliza un conjunto de características diferentes (e idealmente

independientes) para cada ejemplo. Un enfoque alternativo consiste en modelar la

distribución de la probabilidad conjunta de las características y las etiquetas. Los

datos no etiquetados pueden ser tratados como 'datos que faltan'.

4.8.4 Clasificadores por refuerzo. El aprendizaje por refuerzo consiste en

aprender que acciones realizar, dado el estado actual del ambiente, con el objetivo

de maximizar una señal de recompensa numérica, lo cual requiere de un mapeo de

situaciones a acciones. El sistema que aprende debe descubrir por sı solo cuales

son las acciones que le dan a ganar más. En los casos más interesantes y difíciles,

las acciones pueden afectar no solo la recompensa inmediata sino también la

siguiente situación, y de esta forma afectar las siguientes recompensas. Estas dos

características, prueba y error, y recompensas retrasadas, son las dos

características más sobresalientes del aprendizaje por refuerzo. Entre las

aplicaciones más relevantes que estos métodos han tenido recientemente

destacan: el control de vuelo de un helicóptero autónomo, el control adaptativo de

un manipulador robótico y el control de un robot humanoide. El aprendizaje se

realiza en la mayor parte de los algoritmos mediante interacción entre el agente y

su medio ambiente. Uno de los retos que surgen en el aprendizaje por refuerzo y

que no aparece en otros métodos de aprendizaje automático es el dilema entre

exploración y explotación. Para obtener mucha recompensa, un agente de

aprendizaje por refuerzo debe preferir realizar acciones que ha realizado en el

pasado y que sabe que le producirán recompensa, pero también tiene que explorar

las ejecuciones de nuevas acciones que le permitan encontrar mejores acciones

con mayor recompensa. En otras palabras, el agente debe explotar el conocimiento

que actualmente tiene para obtener recompensas, pero también tiene que explorar

para poder ejecutar mejores acciones en el futuro27.

Por otro lado cabe resaltar algunos de los clasificadores que son usados en los

sistemas de reconocimiento de patrones como lo son el clasificador del vecino más

cercano K-NN (K-Nearest Neighbour), el clasificador bayesiano, el clasificador por

máquinas de soporte vectorial, entre otros.

27 CETINA Victor, aprendizaje por refuerzo, Universidad Autónoma de Yucatán, 2012

4.8.4.1 Clasificador del vecino más cercano (K-NN). El algoritmo del vecino más

cercano se basa en la idea de dejar que el volumen de la celda sea función de los

datos de entrenamiento y no una función arbitraria sobre todas las muestras. Por

ejemplo, para estimar 𝑝(𝑥) desde n muestras de entrenamiento o prototipos se

puede centrar una celda sobre x y dejarla crecer hasta que capture KN muestras,

donde KN es alguna función especificada de n. Estas muestras son los vecinos más

cercanos KN de x. Si la densidad es alta cerca a x, la celda será relativamente

pequeña, lo cual conlleva a una buena resolución. Si la densidad es baja, la celda

crecerá hasta que entre en una región de alta densidad.

𝜃 = ∫ 𝑝(𝑥) 𝑑𝑥 Ecuación 4

Para un volumen pequeño se tiene que:

𝜃 ∼ 𝑝(𝑥)𝑉 Ecuación 5

La probabilidad θ se puede aproximar por la proporción KN de un total de n muestras

que caen dentro del volumen V, de lo cual se puede notar que KN es función de x.

𝜃 ∼𝑘𝑛

𝑛 Ecuación 6

Así pues la densidad de probabilidad será:

𝑃𝑛(𝑥) =𝑘𝑛

𝑛⁄

𝑉𝑛 Ecuación 7

Para que la probabilidad aumente, KN debe tener valores grandes, si n tiende a

infinito entonces KN debe tender a infinito, esto asegura que KN/N será una buena

estimación de la probabilidad dentro del volumen de la celda Vn. Sin embargo

también se desea que KN crezca lo suficientemente despacio para que el tamaño

de la celda necesaria (volumen) para capturar KN muestras de entrenamiento tienda

a cero. Para esto debe cumplir que KN/N debe tender a cero también28.

28 CORREDOR GÓMEZ Jennifer Paola. Desarrollo de un sistema de control en la aplicación de técnicas

selectivas de eliminación de maleza Bogotá 1 febrero 2011.Trabajo de grado (Ingeniero). Universidad Nacional de Colombia. Facultad de ingeniería. visión artificial.

Por otro lado podemos mostrar y entender los vecinos más cercanos de la siguiente

manera tomando la tabla como referencia de la terminología que se va a utilizar

𝑋1 … 𝑋𝑗 … 𝑋𝑛 𝐶

(𝑋1, 𝑐1) 1

(𝑋𝑖, 𝑐𝑖) 𝑖

(𝑋𝑁, 𝑐𝑁) 𝑁

𝑥11 … 𝑥1𝑗 … 𝑥1𝑛

𝑥𝑖1 … 𝑥𝑖𝑗 … 𝑥𝑖𝑛

𝑥𝑁1 … 𝑥𝑁𝑗 … 𝑥𝑁𝑛

𝑐1

𝑐𝑖

𝑐𝑁

𝑋 𝑁 + 1 𝑥𝑁+1,1 … 𝑥𝑁+1,𝑗 … 𝑥𝑁+1,𝑛 ?

- D es un fichero que contienen N casos, de los cuales cada uno está

caracterizado por n variables predictoras 𝑥1 … 𝑥𝑛 y una variable que es la que

se va a predecir que es la C.

- Los N casos son denotados por

(𝑥1, 𝑐1), … , (𝑥1, 𝑐1) 𝑑𝑜𝑛𝑑𝑒

𝑥𝑖 = (𝑥𝑖,1 … 𝑥1,𝑛) 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑖 = 1, … , 𝑁

𝑐1 ∈ {𝑐1 … 𝑐𝑚}𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑖 = 1, … , 𝑁

𝑐1 … 𝑐𝑚 Muestran los m diferentes valores que puede llegar a tomar la variable C

Para llevar a cabo una buena clasificación es necesario saber los parámetros que

hay que tener en cuenta para escoger un buen valor de K, esto pasa por que si

optamos por un valor de K muy pequeño este va a ser muy sensible a puntos que

no son típicos o que pueden llegar a ser representados como ruido, pero por otro

lado si el valor de K es demasiado grande el sistema va a optar por asignar siempre

las muestras de entrada a la clase más grande.

Figura 14. Ejemplos de masificación de K-NN

Fuente RICARDO ALER MUR Clasificadores KNN-I [en línea] <http://goo.gl/WYqwUn> [citado en 14 de noviembre de 2015]29

Por otra parte para el entrenamiento es necesario separar o particionar en regiones

por localizaciones y etiquetas de los ejemplos que son usados para entrenar. Un

punto en el espacio se asigna a la clase C si esta es la clase que se mas se repite

entre los K ejemplos de entrenamiento mas cercano, para esto se usan diferentes

tipos de distancias, como la distancia euclidea, euclidea ponderada o la manhattan.

La distancia euclidea es una distancia normal u ordinaria que se mide entre dos

puntos de un espacio euclideo la cual puede ser deducida desde el teorema de

pitagoras, esto con el fin de determinar cual de los puntos vecinos es el mas

cercano, este proceso se describe mediante la siguiente ecuacion

𝑑(𝐴, 𝐵) = √∑ (𝐴𝑖 − 𝐵𝑖)2𝑛𝑖=1 = √(𝐴 − 𝐵)𝑇(𝐴 − 𝐵) Ecuación 8

Es decir la distancia entre dos puntos es netamente igual al espacio que los separa.

La distancia euclidea ponderada esta distancia esta basada en las distancia

euclidea pero en este caso por cada diferencia que realiza entre los puntos se

multiplica por un factor de ponderacion positivo

𝑑(𝐴, 𝐵) = √∑ (𝑚𝑖(𝐴𝑖 − 𝐵𝑖)2)𝑛𝑖=1 = √(𝐴 − 𝐵)𝑇𝑀𝑇(𝐴 − 𝐵) Ecuación 9

29 RICARDO ALER MUR. Clasificadores KNN-I [en línea], [citado en 14 de noviembre de 2015], disponible en internet: <http://goo.gl/WYqwUn>

Donde tenemos un nuevo valor que es M y representa una matriz diagonal y 𝑚𝑖 =

𝑀𝑖𝑖 es igual al factor de ponderacion que se escalará la dimension i.

La distancia euclidea totalmente ponderada ya no trabaja con una matriz diagonal

si no que lo hace con una matriz cualquiera, es una matriz completamente arbitraria

que puede tomar cualquier valor en cualquiera de sus posiciones.

𝑑(𝐴, 𝐵) = √(𝐴 − 𝐵)𝑇𝑀𝑇𝑀(𝐴 − 𝐵) Ecuación 10

Por último encontramos la distancia manhattan de esta manera se plantea que la

distancia se puede calcular formando una cuadricula alrededor de los puntos de los

cuales se quiere hacer la medicion posteriormente generando segmentos

horizontales y verticales que unan a los dos putnos de esta manera se generan

varios caminos, de esta manera tenemos una gran cantidad de segmentos distintos

que pueden unir los dos puntos, si se escogen dos de esas partes se puede formar

un polígono de dos lados que encierra un área determinada y a partir de esta área

es posible determinar la mejor distancia.

𝑑(𝐴, 𝐵) = ∑ |𝐴𝑖 − 𝐵𝑖|𝑛𝑖=1 Ecuación 11

Figura 15. Representación de caminos para la distancia euclidiana

Fuente Geometría euclidea [en línea], [citado en 14 de agosto de 2015], disponible en internet:

<http://goo.gl/nCWGJO>30

30Geometría euclidea [en línea], [citado en 14 de agosto de 2015], disponible en internet:

<http://goo.gl/nCWGJO>

Regla del vecino mas cercano

La mejor forma para determinar los errores para KNN, es usando en primera

instancia un valor de k=1, la regla del vecino más cercano para clasificar una muesta

cualquiera x es asignar una etiqueta asociada con x’, a pesar de esto esta regla es

un proceso sub-óptimo su uso normalmente conlleva a una tasa de error mucho

más grande que la minima posible31.

La etiqueta 𝜃′ asociada con el vecino más cercano es una variable aleatoria, y la

probabilidad de que 𝜃′ = 𝜔𝑖 es la probabilidad a posteriori 𝑃(𝜔𝑖|𝑋′). Cuando el

número de muestras es extenso, es razonable asumir que x’ está lo suficientemente

cercano a x de tal forma que 𝑃(𝜔|𝑥′) ≃ 𝑃(𝜔𝑖|𝑥).

Como es prácticamente la misma probabilidad, el término significativo es 𝜔𝑖, la regla

del vecino más cercano concuerda con las probabilidades de forma efectiva de

forma natural.

Figura 16. Diagrama de algoritmo clasificador KNN

Fuente: autores

4.8.4.2 Clasificador bayesiano. En primer lugar es conveniente hablar acerca de

las redes bayesianas, una red bayesiana es considerada como un grafo no cíclico

en el que cada uno de los nodos representa una variable y a su vez cada arco una

dependencia probabilística en el cual se muestra la probabilidad condicional de cada

variable dados sus “padres”, la variable a la que apunta el arco es dependiente de

31 CORREDOR GÓMEZ Jennifer Paola. Desarrollo de un sistema de control en la aplicación de técnicas

selectivas de eliminación de maleza Bogotá 1 febrero 2011.Trabajo de grado (Ingeniero). Universidad Nacional de Colombia. Facultad de ingeniería. visión artificial.

la que está en el origen del mismo. En general la estructura de la red proporciona

información acerca de las llamadas dependencias probabilísticas entre las variables

pero también sobre las independencias condicionales de cada una de las variables

o de un conjunto de variables.

Ahora bien teniendo en cuenta un ejemplo cualquiera que se encuentra

representado por un número k de valores, el clasificador de bayes o bayesiano

encuentra la hipótesis más probable que describa a dicho ejemplo. Dado que la

descripción de ese ejemplo venga dada por valores < 𝑎1, 𝑎2, … , 𝑎𝑛 > la hipótesis

más probable será la que cumpla con:

𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣𝑗𝜖 𝑣 𝑃(𝑣𝑗|𝑎1, … , 𝑎𝑛) Ecuación 12

Esto quiere decir que la probabilidad de que habiendo conocidos los valores que

describen al ejemplo este pertenezca a la clase 𝑣𝑗 (el cuál es el valor de la función

de clasificación en el conjunto finito V). Usando entonces el teorema de bayes:

𝑉 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣𝑗𝜖 𝑣 𝑃(𝑣𝑗|𝑎1, … , 𝑎𝑛)𝑝(𝑣𝑗)

𝑃(𝑎1,… ,𝑎𝑛)= 𝑎𝑟𝑔𝑚𝑎𝑥𝑣𝑗𝜖 𝑣 𝑃(𝑣𝑗|𝑎1, … , 𝑎𝑛)𝑝(𝑣𝑗) Ecuación

13

𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =𝐴𝑛𝑡𝑒𝑟𝑖𝑜𝑟∗𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑

𝐸𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 Ecuación 14

Se podría estimar 𝑝(𝑣𝑗) contando las veces de aparición del ejemplo 𝑣𝑗 en el

conjunto de entrenamiento y dividiéndolo por la totalidad de los ejemplos que forman

dicho conjunto, por otro lado para estimar 𝑃(𝑣𝑗|𝑎1, … , 𝑎𝑛) ósea el número de veces

que aparecen los valores del ejemplo para cada categoría, se debe recorrer todo el

conjunto con el que se está entrenando el sistema lo cual es impráctico, y por esta

razón se recurre a la hipótesis de independencia condicional para poder factorizar

la probabilidad, la hipótesis esta descrita como: Los valores 𝑎𝑗 que describen un

atributo de cualquier ejemplo son independientes entre sí conocido el valor de la

categoría a la que pertenecen, así la probabilidad de observar la conjunción de los

atributos de 𝑎𝑗dada una categoría a la que pertenecen es propiamente el producto

de las probabilidades de cada valor por separado:

𝑃(𝑎1, … 𝑎𝑛|𝑣𝑗) = Π𝑖 𝑃(𝑎𝑖|𝑣𝑗) Ecuación 15

El clasificador de Bayes ingenuo fue diseñado para usarlo cuando los predictores

con independientes el uno del otro en cada clase, pero a pesar de esto funciona

bien en la práctica aun cuando esta suposición no se cumple, para la clasificación

de datos hay dos grandes pasos, el primero es el de formación o entrenamiento el

cual hace uso de los datos de entrenamiento, el método de estimación de los

parámetros de una distribución de probabilidad y la suposición de predictores que

son condicionalmente independientes de la clase. Por otro lado se encuentra el paso

de predicción el cual calcula la probabilidad posterior de que la muestra pertenezca

a una de las clases este método entonces se basa en la mayor probabilidad

posterior para hacer la clasificación de los datos de prueba.

Para la etapa de entrenamiento este clasificador se basa en la estimación de la

densidad de probabilidad o la probabilidad de la predicción de X dada una clase Y,

para este fin se cuenta con algunas distribuciones admitidas para su funcionamiento

como lo son distribución normal, distribución kernel, y distribución multinomial.

Distribución normal

Esta es la distribución de probabilidad más importante debido a la cantidad de

fenómenos que explica, en esta una multitud de variables aleatorias continuas

siguen una distribución normal o aproximadamente normal.

Tal vez su característica más importante es que casi cualquier distribución de

probabilidad, tanto discreta como continua, se puede aproximar por una normal bajo

ciertas condiciones. La distribución de probabilidad normal y la curva normal que la

representa, tienen las siguientes características:

La curva normal tiene forma de campana y un solo pico en el centro de la

distribución. De esta manera, la media aritmética, la mediana y la moda de la

distribución son iguales y se localizan en el pico. Así, la mitad del área bajo

la curva se encuentra a la derecha de este punto central y la otra mitad está

a la izquierda de dicho punto.

La distribución de probabilidad normal es simétrica alrededor de su media.

La curva normal desciende suavemente en ambas direcciones a partir del

valor central. Es asintótica, lo que quiere decir que la curva se acerca cada

vez más al eje X pero jamás llega a tocarlo. Es decir, las “colas” de la curva

se extienden de manera indefinida en ambas direcciones32.

32 ÁNGEL A. Juan. MÁXIMO SEDANO, Alicia Vila. Clasificador de Bayes[en línea], [Citado el 30 de Noviembre de 2015], disponible en internet: < http://goo.gl/2Z7mb2>

Podemos decir entonces que si 𝑋 ∼ 𝑁(µ, 𝜎) , entonces la variable aleatoria

𝑍 =𝑥−𝜇

𝜎 Ecuación 16

Se distribuye según una normal de media 0 y desviación estándar 1, que es la

distribución llamada normal estándar o tipificada.

Distribución Kernel

La distribución 'kernel' es propia de predictores que tienen una distribución continua.

No requiere una fuerte hipótesis como una distribución normal y se puede utilizar en

los casos en que la distribución de un predictor puede ser sesgados o que tienen

múltiples picos o modos. Se requiere más tiempo de cálculo y más memoria que la

distribución normal.

El clasificador de bayes ingenuo calcula una estimación de densidad kernel

separado para cada clase basado en los datos de entrenamiento de esa categoría.

Por defecto, el kernel es el núcleo de lo normal, y el clasificador selecciona un ancho

automáticamente para cada clase y predictor33.

𝑓(𝑥) =1

𝑛ℎ∑ 𝑘(

𝑥−𝑋𝑖

ℎ)𝑛

𝑖=1 Ecuación 17

El valor h, denominado normalmente como ventana, es un valor que representa el

área de influencia que se le pretende dar a cada valor muestral. Su elección se le

suele hacer depender de la dispersión de los valores. Posiblemente, para entender

mejor la operatividad del estimador, es mejor pensar que h es igual a 1 y así ya

aparecen en la expresión elementos más fáciles de controlar y asimilar, 𝑋1, … 𝑋𝑛 son

las diferentes muestras, n el tamaño muestral y k el kernel.

Distribución multinomial

La distribución multinomial es apropiado cuando, dada la clase, cada observación

es una variable aleatoria multinomial. Es decir, la observación, o fila, j de los datos

del predictor X representa categorías D, donde 𝑋𝑗𝑑 es el número de éxitos para la

33 MATLAB MATHWORKS, [Citado el 30 de Noviembre de 2015] Disponible en internet:<http://www.mathworks.com/>

categoría (es decir, predictor) d en n ensayos independientes. Los pasos para

entrenar un clasificador de Bayes ingenuo se describen a continuación.

La distribución multinomial se describe con el siguiente modelo:

𝑃(𝑋1 = 𝑥1, 𝑋2 = 𝑥2, 𝑋3 = 𝑥3 … ) =𝑛!

𝑥1!∗𝑥2!∗𝑥3!∗… 𝑝1

𝑥1 ∗ 𝑝2𝑥2 ∗ 𝑝3

𝑥3 … Ecuación 18

Dónde:

𝑋1 = 𝑥1 Quiere decir que el suceso 𝑋1 aparece 𝑥1 veces, n indica el veces que se

ha repetido el suceso, n! es el factorial de n y 𝑃1 se refiere a la probabilidad de que

el suceso 𝑋1 suceda

4.8.4.3 Máquinas de soporte vectorial (SVM). El primer concepto que hay que

tener en cuenta para trabajar con el clasificador de máquinas de soporte vectorial

es el de datos separables, este tipo de clasificador se usa únicamente cuando la

base tiene solo 2 clases. Las máquinas de soporte vectorial clasifica los datos de

entrada haciendo la búsqueda del mejor plano que separa los datos de la clase 1

de los datos de la clase dos, es considerado como el mejor plano aquel que tiene el

mayor margen entre las dos clases, es decir que no hay datos de una clase inmersos

en la otra.

Por otro lado los vectores de soporte son los datos que están más cerca del plano

de separación, estos se encuentran en los límites permitidos.

Figura17. Plano de separacion, Imagen

Fuente: MATLAB MATHWORKS, Maquinas de soporte vectorial [en línea], [citado en 3 de octubre de 2015], disponible e internet: <http://goo.gl/qtY10V> 34

34MATLAB MATHWORKS, Maquinas de soporte vectorial [en línea], [citado en 3 de octubre de 2015],

disponible e internet: <http://goo.gl/qtY10V>

Los datos para el entrenamiento son un conjunto de puntos 𝑥𝑖 junto con sus

categorías 𝑦𝑖. Para alguna dimensión d, el 𝑥𝑖 ∈ 𝑅𝑑 y 𝑦𝑖 = ± 1. La ecuación de un

hiperplano es

< 𝑤, 𝑥 > + 𝑏 = 0 Ecuación 19

Donde 𝑤 ∈ 𝑅𝑑, <w, x> es el producto interno de w y x, y b un número es real.

Figura 18. Diagrama de una máquina de aprendizaje

Fuente: GONZÁLEZ ABRIL L. Modelos de Clasificación basados en Máquinas de Vectores, [citado 25 agosto 2013], disponible en internet: < http://goo.gl/1I1ndd>35

El modelo que se representa en la figura 4, es un esquema de una máquina de

soporte vectorial, donde G es un modelo generador de datos que proporciona los

vectores 𝑥𝑖 𝜖 𝑋, independientes y distribuidos de la misma manera con una función

de distribución desconocida pero que en teoría no debería de variar a lo largo del

proceso, cada vector es una entrada del operador S que lo transforma en un valor

𝑦𝑖 según la función de distribución condicional 𝐹𝑥/𝑦 = 𝑥𝑖(𝑦), por ende la máquina de

aprendizaje recoge un conjunto de entrenamiento

𝑧 = {(𝑥1, 𝑦1), … , (𝑥𝑛, 𝑦𝑛)} ⊆ 𝑋 × 𝑌 = 𝑍 Ecuación 20

Existen unos casos muy específicos en los cuales la separación no es

completamente lineal, uno de esos casos es cuando los datos pueden ser

separados con un margen máximo pero dentro de un espacio de características que

35 GONZÁLEZ ABRIL L. Modelos de Clasificación basados en Máquinas de Vectores, [citado 25 agosto 2013], disponible en internet: < http://goo.gl/1I1ndd>

representa por lo tanto una mayor dimensionalidad y este se obtiene con una

transformación de las variables del espacio de entrada con una función kernel, por

otro lado tenemos el caso denominado margen blando que es usado cuando no es

posible encontrar una transformación de los datos que los deje separar linealmente

bien sea en el espacio de entrada o en el espacio de características.

Figura 19. Máquina de soporte vectorial no linealmente separable inducida por una función kernel

Fuente COLMENARES Gerardo. Inteligencia artificial, máquinas de soporte vectorial, [citado 15 abril 2012],

disponible en internet < http://goo.gl/H2ZrpI > 36

4.8.4.4 Redes neuronales. Las redes neuronales son uno de los llamados

paradigmas usados para hacer computo en general y sobre todo para detección de

patrones que se basa en la interconexión paralela de neuronas creadas

artificialmente, las redes neuronales son modelos basados en los sistemas

nerviosos de los animales y personas con una gran cantidad de conexiones y

paralelismo, se puede definir también como un modelo matemático compuesto por

un gran número de elementos procesales organizados por niveles además son

redes de elementos simples interconectadas masivamente en paralelo y con una

organización jerárquica, gracias a sus fundamentos las redes neuronales presentan

algunas propiedades de gran ayuda a la hora del procesamiento por ejemplo son

capaces de aprender de la experiencia, generalizar a partir de casos anteriores,

abstraer características muy importantes a través de información irrelevante entre

otras cosas.

36 COLMENARES Gerardo. Inteligencia artificial, máquinas de soporte vectorial, [citado 15 abril 2012],

disponible en internet < http://goo.gl/H2ZrpI >

Figura 20. Ejemplo de una red neuronal completamente conectada

Fuente: MATICH DAMIAN Jorge, Redes Neuronales: Conceptos Básicos y Aplicaciones. Universidad Tecnológica Nacional, 2001 disponible en internet:< http://goo.gl/ifsX97>37

La red de la figura 23 está constituida por neuronas interconectadas y arregladas

principalmente en tres capas, aunque este número pueden variar, en primer caso

los datos ingresan por medio de la llamada capa de entrada luego pasan por la capa

oculta la cual puede estar constituida por varias capas

La neurona de la capa de entrada trata a muchos valores de entrada como si se

tratara de uno solo, a esto se le llama entrada global, lo cual representa un gran

problema que es como combinar las simples entradas dentro de la capa de entrada

de manera global, esto es posible por la función de entrada.

𝑖𝑛𝑝𝑢𝑡𝑖 = (𝑖𝑛𝑖1 • 𝑤𝑖1) ∗ (𝑖𝑛𝑖2 • 𝑤𝑖2) ∗ . .. ∗ (𝑖𝑛𝑖2 • 𝑤𝑖2) Ecuación 21

Donde ∗ representa uno de los diferentes operadores que serán apropiados para

esta globalización como lo son máximo, sumatoria, producto, entre otras. Los

valores de entrada se multiplican por los pesos anteriormente ingresados a la

neurona. Por consiguiente, los pesos que generalmente no están restringidos

cambian la medida de influencia que tienen los valores de entrada.

37 MATICH DAMIAN Jorge, Redes Neuronales: Conceptos Básicos y Aplicaciones. Universidad Tecnológica Nacional, 2001 disponible en internet:< http://goo.gl/ifsX97>

Es decir, que permiten que un gran valor de entrada tenga solamente una pequeña

influencia, si estos son lo suficientemente pequeños38.

Una neurona biológica puede estar activa o excitada o inactiva ósea no excitada es

decir que cuentan con un estado de activación, las neuronas artificiales también

cuentan con estas activaciones, la función de activación calcula el estado de

actividad de las neuronas transformando así la entrada global en un valor de

activación que por lo general varía entre 0 y 1 o de -1 a 1, dentro de estas funciones

de activación podemos encontrar:

Función lineal

𝑓(𝑥) {−1 𝑥 ≤ −1/𝑎

𝑎 ∗ 𝑥 − 1/𝑎 < 𝑥 < 1/𝑎1 𝑥 ≥ 1/𝑎

Ecuación 22

Función Sigmoidea

𝑓(𝑥) =1

1+𝑒−𝑔𝑥 Ecuación 23

Función tangente hiperbólica

𝑓(𝑥) =𝑒𝑔𝑥−𝑒−𝑔𝑥

𝑒𝑔𝑥+𝑒−𝑔𝑥 Ecuación 24

La última parte que necesita la neurona es la función de salida, el valor resultante

final de esta función es la salida de la neurona por ende la función de salida es la

que determina qué valor se le va a transferir a las neuronas vinculadas, si la función

de activación se encuentra por debajo de un umbral previamente establecido

ninguna salida se para a la neurona que se encuentra después, los valores de salida

al igual que los de entrada están comprendidos entre los rangos de 0 a 1 o de -1 a

1, las funciones de salida más comunes son fundamentalmente dos la primera es

cuando no tiene ninguna función es decir la salida es la misma que la entrada y es

llamada función de identidad, por otro lado se encuentra la binaria la cual esta

descrita así:

𝑓(𝑥) = {1 𝑠𝑖 𝑙𝑎 𝑓𝑢𝑛𝑐𝑖𝑜𝑛 𝑑𝑒 𝑎𝑐𝑡𝑖𝑣𝑎𝑐𝑖𝑜𝑛 𝑒𝑠 𝑚𝑎𝑦𝑜𝑡 𝑞𝑢𝑒 𝜉𝑖

0 𝑒𝑛 𝑒𝑙 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜 Ecuación 25

Donde 𝜉𝑖 𝑒𝑠 𝑒𝑙 𝑢𝑚𝑏𝑟𝑎𝑙 𝑚𝑖𝑛𝑖𝑚𝑜

38 MATICH DAMIAN Jorge, Redes Neuronales: Conceptos Básicos y Aplicaciones. Universidad Tecnológica Nacional, 2001 disponible en internet:< http://goo.gl/ifsX97>

5. DESARROLLO DEL PROYECTO

5.1 ADQUISICIÓN DE IMÁGENES

El primer proceso de en un sistema de visión artificial es la adquisición de las

imágenes. Este se puede realizar por diferentes medios, los principales son por

medio de una cámara web o importando una imagen ya establecida. En esta etapa

se obtiene la información a utilizar que es el elemento fundamental sobre el que se

va a llevar a cabo el procesamiento, por lo que hay que tener en cuenta el dispositivo

de adquisición a utilizar. Se tomaron 350 fotografías de diferentes cultivos de la

región cundiboyacense en diferentes etapas de crecimiento de los mismos, con un

enfoque superficial y bajo condiciones naturales de iluminación, de las cuales se

emplearon dichas imágenes y se obtuvieron a una resolución de 24.1 Mega pixeles.

5.1.1 Protocolo de selección. Se llevó a cabo la obtención del banco de imágenes

en diferentes lugares de la región Cundiboyacense en donde se involucraron

cultivos de haba, maíz, papa, fresa, lechuga, remolacha, repollo, zanahoria , acelga,

cebolla cabezona, pimentón, tomate y papa criolla posterior a ello se procedió a

realizar la selección de las imágenes teniendo en cuenta criterios como:

Apreciación de la plantación: se reservó una fotografía general del cultivo con

la finalidad de que esta sirva como imagen de presentación.

Figura 21. Vista general del cultivo

Fuente: autores

Impacto visual: el impacto visual, es la sensación que se percibe al observar

una imagen por primera vez, en este caso se dio protagonismo a la presencia

de malas hierbas en medio de los diferentes cultivos, dando importancia al

cultivo en general, sin dejar de lado la presencia de malas hierbas en

términos generales, en la imagen las especies arvenses tienen un impacto

visual fuerte haciendo que se destaquen a primera vista de entre un grupo

de imágenes.

Centro de interés: Toda imagen debe tener un punto o centro de interés, el

cual en este caso será la presencia de especies arvenses en los cultivos que

es el punto focal donde se quiere que el algoritmo de detección realice

adecuadamente su labor. En una imagen puede haber un punto de interés

primario o principal en este caso en específico se trata de la presencia de

Pennisetum clandestinum o comúnmente llamado pasto kikuyo, también se

puede contar con puntos de interés secundarios como la presencia de otro

tipo de malas hierbas.

Figura 22. Centro de interés, presencia de malezas

Fuente: autores

La calidad técnica: Son todas esas cualidades empleadas en la confección

de la imagen o fotografía, se refiere a la calidad de captura, es decir que este

en foco, que cuente con buena resolución, que sea nítida que este

correctamente balanceada sin dominantes de color, que no exista

difuminación o ruido, que sea posible presenciar claramente tanto la

presencia de las plantas pertenecientes al cultivo como la presencia de las

plantas tratadas como “invasoras”.

Composición: Es muy importante en la confección de toda imagen, Una

composición adecuada hace que el observador permanezca dentro de la

imagen, la recorra visualmente en todos sus componentes y logra dar

equilibrio a la misma, es por ello que en la selección de imágenes se trató de

conservar un equilibrio en la presencia de cultivo y de maleza, que para el

observador fuese posible reconocer y diferenciar ambas partes dentro de la

imagen.

Iluminación: La correcta iluminación es una de las cualidades que definen a

una imagen. Mediante una iluminación adecuada pueden establecerse

valores generales a la fotografía, establecer volúmenes. Existen muchas

maneras de manejar la iluminación, en tres tipos de tonos, la selección de

fotografías se hizo en tono normal el cual tiene en cuenta un equilibrio de los

tonos grises, omitiendo tonos bajos como las sombras y tonos altos donde

se resaltan las luces blancas dejando de lado imágenes con gran presencia

de incandescencia.

Figura 23. Iluminación natural inadecuada

Fuente: autores

La temática: se tuvo en cuenta que en las fotografías estuviera plasmada la

relación y la historia que se quería transmitir, la presencia de malas hierbas

en cultivos y la fuerza que esta toma dentro de dichas imágenes en donde

se puede observar que en diversas ocasiones posiciones extremas cuando

se trata de predominancia de arvenses en cultivos, pasando de niveles bajos

casi nulos de malas hierbas hasta niveles en donde realmente estas toman

control del cultivo.

Basados en estos criterios se realizó el proceso de selección de fotografías,

obteniendo como resultado final, que de un total de 350 fotografías se descartaron

250, y fueron seleccionadas para el desarrollo del proyecto 100.

5.2 ALGORITMO DE PROCESAMIENTO

Este algoritmo está compuesto por ocho bloques de procedimientos en los que se

concentran todo el procesamiento de imágenes, a su vez se encuentra representado

mediante un diagrama de flujo que permite visualizar de manera más sencilla lo que

contiene y la forma en la que funciona el código que se diseñó para llevar a cabo el

tratamiento de las diferentes imágenes. A continuación, se explicaran los diferentes

bloques y se visualizara el diagrama.

5.2.1 Descripción de bloques. El diagrama de flujo permite hacer una

representación gráfica del código, pero no explica de forma textual que operaciones

se llevan a cabo en cada uno de ellos, por lo que a continuación de describe el

procedimiento realizado en los diferentes bloques.

Conversión RGB a HSV: este bloque posterior a la incorporación de la imagen al

sistema como su nombre lo indica, se encarga de convertir los canales de la imagen

a HSV con el fin de hacer más fácil el procesamiento de las imágenes.

En el apartado de selección se establece el rango del color verde, que va desde los

tonos más claros establecidos por [30, 50, 50] hasta los tonos más oscuros

determinados por [70, 255, 255].

Posterior a esto se aplica una máscara a la imagen a todos los objetos teniendo en

cuenta los rangos de color establecidos anteriormente, está máscara trabaja en dos

valores, en blancos y negros, todos los pixeles que no están dentro del rango de

verde toman un nuevo valor y ahora serán negros y los pixeles que se encuentran

en dicho rango se convertirán en pixeles blancos.

Después se procede a hallar el área de los objetos que ahora son blancos y que

han sido el resultado de la aplicación de la máscara, si el área de los objetos es

superior a 20000000 se busca el centro de cada objeto y se obtienen sus

coordenadas, se etiquetan, esto con el fin de descartar el ruido que se puede

presentar en las imágenes para reducir tiempo y procesamientos innecesarios.

Con el fin de eliminar ruido o pequeños puntos blancos dispersos en la imagen, se

aplica un procedimiento llamado Opening en donde se realiza una erosión y luego

dilatación, erradicando el ruido.

Seguido a esto se hace una detección de bordes empleando el método de Canny.

Por ultimo como la imagen se encuentra en blanco y negro sin ruido, se procede

retornar el color en el rango que se había especificado con anterioridad, lo que da

como resultado que se ha devuelto nuevamente el color tanto a las plantas

cultivadas como a las malas hierbas y los demás elementos que estaban presentes

ya no son visibles, se han aislado.

En última instancia se muestra la imagen que se ha obtenido como resultado.

Figura 24. Diagrama de flujo del código de tratamiento de imagen

Fuente: autores

5.3 CREACIÓN BASE DE DATOS

Se realizó la selección de imágenes de forma manual, teniendo en cuenta

diferentes aspectos, mencionados en el protocolo de selección de los cuales se

destaca que si es posible hacer la detección a simple vista, la máquina está en la

capacidad de hacerlo también, otro aspecto importante a la hora de seleccionar las

imágenes fue la iluminación, debido a que esta era de tipo natural, se hizo necesario

descartar las imágenes que presentaban zonas opacas, sombras o destellos que

dificultaban el procesamiento y generalizaban grandes áreas en una misma

tonalidad, finalmente se consideraron aceptables 100 fotografías, de las cuales se

procedió a tomar 520 muestras entre plantación de cultivo y malezas, estas

muestras se obtuvieron recopilando el valor de los canales RGB en diferentes

ubicaciones de las plantas mencionadas anteriormente, de las cuales se tomaron

400 para entrenamiento compuestas por 200 muestras de cultivo y 200 muestras

de malezas y 120 para test o clasificación de igual manera.

Estas muestras de test se introdujeron en cuatro clasificadores diferentes tales

como:

Clasificador del vecino más cercano (KNN).

Clasificador Bayesiano.

Redes neuronales (NN).

Máquinas de soporte vectorial (SVM)

6. RESULTADOS

6.1 ANÁLISIS DE RESULTADOS

Posterior a los procesos de tratamiento de imágenes y las transiciones que estas

tuvieron para hacer más fácil llegar al objetivo de aislar las plantas de color verde

del resto de objetos presentes en las fotografías, estas imágenes se sometieron a

cambios de canal RGB a HSV, modificaciones de características morfológicas como

procesos de segmentación de umbralización, Opening y detección de bordes que

da como resultado que a partir de una fotografía original, cómo se da el aislamiento

de objetos que no son afines a las malas hierbas y a las plantas del cultivo tal como

se muestra en las siguientes imágenes.

Figura 25. Imagen para procesamiento

Fuente: autores

Figura 26. Imagen para procesamiento

Fuente: autores

En la parte izquierda de la figura 18 se puede observar la presencia de malezas

mientras que en la parte derecha se tiene una planta de fresa.

Al finalizar el tratamiento de imágenes se logra obtener exclusivamente todos los

pixeles que conforman los objetos de color verde presentes en la fotografía, pero

esto no es suficiente para determinar que es cultivo y que es maleza, por ello fue

necesario buscar una característica tanto de las malas hierbas como del cultivo, que

estuviera presente siempre y de alguna manera fuese en gran manera constante,

ya que cualidades de las hojas como el área, perímetro, son características que

dependen de factores como la fase de crecimiento tanto del cultivo como de la mala

hierba, es muy difícil garantizar que estas características cuantitativas de las hojas

sean constantes ya que el momento de hacer la adquisición de imágenes debería

ser siempre el mismo, pensando en una fase temprana del cultivo o un tiempo

determinado, haciendo que la detección de malezas se viera restringida a ser hecha

en un tiempo específico y no en cualquier momento en el que se necesite, inclusive

se puede manejar la hipótesis de que debería existir predominancia del cultivo frente

a las especies arvenses, analizando las imágenes es posible observar que no

siempre se cumple esta condición, se evidenció que los cultivos en fase temprana

tienen un volumen muy reducido frente a las malas hierbas, sin contar con que las

líneas de siembra se encuentran muy cerca de extensiones de tierra en donde no

existe plantación en y es evidente el dominio por parte de pastos como el kikuyo y

la gran cobertura que este tiene, esta especie de pasto africana cuenta con enormes

características de adaptación ya que es capaz de soportar condiciones agrestes y

de supervivencia compleja debido a que tiene un crecimiento rápido, es agresivo,

es económico y posee tolerancia al estrés abiótico como el anegamiento y la acidez

del suelo, la salinidad, sequía, inclusive es implementado para poblar la erosión en

diferentes terrenos, cobertura y conservación de la fertilidad del suelo39. En

ocasiones las líneas de cultivo se ven superadas en cantidad y tamaño por pastos

como estos haciendo aún más difícil la detección ya que en las imágenes se hace

muy difícil apreciar todos los componentes de la planta cultivada porque se ve un

entrelazamiento con el pasto, Se tuvo en cuenta también como criterio de selección

la forma de las hojas de los objetos a diferenciar, en ocasiones es difícil llevar esto

a cabo por que los cultivos son muy jóvenes, en ocasiones es apreciable su

germinación y en contraste se encuentran malezas en pleno desarrollo, y en este

contexto algunas como las de maíz joven son muy parecidas a las del pasto kikuyo

39 CRIOLLO Paola Jimena , OBANDO Melissa , SÁNCHEZ M. Leonardo, BONILLA Ruth. Efecto de bacterias

promotoras de crecimiento vegetal (PGPR) asociadas a Pennisetum clandestinum en el altiplano cundiboyacense. EN: Revista Corpoica - Ciencia y Tecnología Agropecuaria (2012) 13(2), pag.189-195.

aumentando la complejidad de la detección por estas razones dichas características

fueron descartadas.

Finalmente se optó por adoptar como criterio de selección los valores de los canales

RGB tanto de la planta cultivada como de la especie arvense, aunque existen

semejanzas en el color es posible diferenciar por tonalidades, lo que quiere decir

que los valores de los canales presentan diferencias, con esta característica no se

presentan restricciones de tiempo de muestreo, diferencias de tamaño, volumen,

predominancia, forma y edad o fase del cultivo, esto genera mayor confiablidad y

conservación de las características. Lo que da paso a la implementación de los

clasificadores que se encargaran de hacer la selección.

Para el desarrollo de la investigación se requería llevar a cabo diferentes procesos

de recolección de información y tratamiento de los mismos, es importante encontrar

la forma en que las muestras recolectadas tuvieran una representación gráfica que

fuese comprensible, para la selección de las características a analizar

posteriormente por los clasificadores, la indagación respecto a un software que

cumpliera con los requisitos de visualización de datos, posterior a una búsqueda se

contempló la idea de hacer minería de datos utilizando Weka es una plataforma de

software para el aprendizaje automático y la minería de datos escrito en Java y

desarrollado en la Universidad de Waikato. Esta herramienta representa de manera

gráfica los canales R, G y B tanto del cultivo como de las malas hierbas, se quería

buscar en que canales de estas dos clases se presentaba una regresión, lo que

quiere decir que los datos de cultivo representados en un mismo color se

encontraran en un costado diferente a los datos de malezas representados en otro

color, esto con el fin de diferenciar en primera instancia de manera visual las

diferencias entre estas dos clases, garantizando que en el momento en que estos

datos fuesen ingresados a los clasificadores, estos no tuvieran dificultad para

referenciar y catalogar adecuadamente cada decisión de selección, por lo que se

puede apreciar que las muestras en las que se cumplía dicha condición se

encontraban en los canales R, G y B de maleza versus el canal B de cultivo, son los

valores de estos canales los que serán ingresados en los clasificadores para la toma

de decisiones de que corresponde a pasto y a cultivo.

Figura 27. Canales seleccionados

Fuente: autores

En el costado izquierdo se representan los datos de cultivo (CR, CG, CB) en color

azul y en la parte superior las malas hierbas (PR, PG, PB), aunque no se presenta

una separación total entre los datos de cultivo y maleza es apreciable la diferencia

con la que estos cuentan, a diferencia de las que se enfrentaron en los canales R y

G de cultivo, en donde se presentan muchas más mezclas de las dos clases a

evaluar.

En los demás canales se hace casi imposible diferenciar la pertenencia de cada

dato, debido a que el valor de las muestras es similar y existe un solapamiento de

puntos y cruces que son las formas en las que el programa representa los datos de

una clase y de otra, este interferencia en los datos aumenta la dificultad para notar

las diferencias entre muestras. Tal como se puede observar a continuación.

Figura 28. Representación gráfica de datos en Weka

Fuente: autores

Se considera que para determinar el número adecuado de vecinos se debe tener

en cuenta que si dicho valor es muy bajo, el clasificador tiende a presentar ruido,

sin olvidar también que existe la posibilidad de que al tener un valor de vecinos muy

grande la decisión de pertenencia de los datos en el momento de selección se ve

afectada debido este opta por la clase que contenga mayor cantidad de muestras,

aunque esta restricción tiene un comportamiento peculiar, ya que el número de

muestras de las clases es igual para este caso, lo que genera que al incrementar el

número de vecinos después de 5 se observe un comportamiento exponencial en el

porcentaje de error del clasificador y antes de 5 vecinos el porcentaje de error se

mantiene constante, para prevenir posibles clasificaciones con porcentajes de error

demasiado altas, se consideró que un valor de 2 vecinos más cercanos estaría en

el rango aceptable de trabajo y cumple con las prevenciones de posibles fallos o

interferencias según las limitaciones que presenta este clasificador supervisado.

Tabla 1. Resultados de cada clasificador implementado

CLASIFICADOR CANAL

(RGB)

NO. DE

MUESTRAS

T

NO. DE

MUESTRAS

P

PREDICCIONES

ERRONEAS

ERROR

DE

TEST

(%)

KNN PASTO

R 400 120 168 42

KNN PASTO

G 400 120 89 22

KNN PASTO

B 400 120 196 49

BAYES PASTO

R 400 120 122 30

BAYES PASTO

G 400 120 69 17.2

BAYES PASTO

B 400 120 211 52

SVM PASTO

R 400 120 156 39

SVM PASTO

G 400 120 70 17.5

SVM PASTO

B 400 120 204 51

NN PASTO

G 400 120 67 16.8

NN PASTO

R 400 120 115 28.7

NN PASTO

B 400 120 176 44

Fuente: autores

Convenciones de la tabla 1

KNN= K- Nearest Neighbour

SVM=Maquina de soporte vectorial

NN= Neuronal Networks

Muestras T= Muestras para el entrenamiento del sistema

Muestras P= Muestras para el testeo del sistema

En la tabla anterior se pueden apreciar los resultados posteriores a la toma de datos

y clasificación de los mismos, es importante mencionar que estos porcentajes de

error se toman del entrenamiento que el clasificador debe hacer previo a analizar

las muestras que se desean clasificar, esto con el fin de dar una idea de que tan

confiable es el clasificador en el momento en que realice los procedimientos

pertinentes, por la misma razón se tienen más muestras de entrenamiento que de

test, de los cuatro clasificadores implementados es posible resaltar que los menores

porcentajes de error se encuentran en el canal G y el mayor porcentaje se encuentra

en el canal B, es algo común en los clasificadores esto se debe a que las muestras

en este canal son muy similares por que se están comparando con el canal B de

pasto y como se podía observar en Weka cuando se enfrentan dos canales con el

mismo componente los datos se mezclan y es muy difícil diferenciarlos a tal punto

que parecen una línea diagonal, también se nota que quienes presentan menor

porcentaje de error, fue en primer lugar las redes neuronales, a diferencia de los

demás clasificadores las redes neuronales trabajan con pesos aleatorios con las

que estas realizan sus entrenamientos, se realizaron varios re entrenamientos hasta

obtener una red compuesta por 7 neuronas y un bajo porcentaje de error.

Las redes neuronales presentan diferentes ventajas sobre los demás clasificadores,

por lo que no es extraño que estas sean quienes presenten el porcentaje de error

más bajo, debido a que cada capa al ser entrenada tiene la capacidad de encontrar

y detectar las características que mejor ayudan a clasificar los datos. Estas capas

son capaces de detectar rasgos en los datos de entrada, se busca siempre detectar

la misma característica en todos los grupos, por lo que es posible repetir esa

estructura y reducir los ajustes que hay que hacer, además se cuenta con varias

capas intermedias con varias neuronas cada una, profundizando la red neuronal, lo

que hace que con más capas y con más neuronas en cada una de ellas se mejoran

las predicciones en conjuntos de datos más complicados, mejorando los resultados

obtenidos frente a otros clasificadores.

Las redes neuronales utilizadas cuentan con un porcentaje resaltado en verde en la

tabla 1 del 16.8% en el canal G, en los demás canales presenta errores bajos con

respecto a los demás clasificadores, la suma total de las muestras mal clasificadas

en los 3 canales permite apreciar que con 358 muestras mal clasificadas de un

total de 1200, este es el clasificador con menores porcentajes de error, seguido a

este se encuentra el clasificador de Bayes con un valor del 17.2% de error en el

canal G y la suma de sus errores es de 402/1200 muestras, este clasificador tiene

el peor error individual en el canal B, por el comportamiento de los datos en relación

al pasto por lo mencionado anteriormente, el peor porcentaje individual se encuentra

resaltado con color rojo en la tabla, en tercer lugar se encuentran las máquinas de

soporte vectorial o SVM quienes están muy cerca del clasificador anterior y cuentan

con un porcentaje de error de 17.5% siendo superado por unas décimas, el error

de clasificación total en los 3 canales es de 430/1200 muestras, y en último lugar

con un porcentaje de error de 22% en el canal G y una suma total de errores de

clasificación igual a 453/1200 datos mal clasificados se encuentra el clasificador de

vecinos más cercanos.

Posteriormente se presentarán las matrices de confusión, para contextualizar una

matriz de confusión es una herramienta de visualización que se emplea

en aprendizaje supervisado. Cada columna de la matriz representa el número de

predicciones de cada clase, mientras que cada fila representa a las instancias en la

clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si

el sistema está confundiendo dos clases, estas matrices se pueden representar en

forma de tabla o en forma gráfica.

Las redes neuronales presentan el porcentaje de error más bajo con respecto a los

demás clasificadores, a continuación se muestra la matriz de confusión para el canal

G de manera gráfica, esta se obtiene en base a dos clases de las cuales se tiene

en el cuadro de color verde el número de muestras bien clasificadas para cada

clase, y en el cuadro de color rojo el número de muestras mal clasificadas, en el

cuadro de la esquina inferior derecha de la matriz se observan dos valores de

porcentaje en dos colores diferentes, el verde corresponde a las muestras

clasificadas adecuadamente y el color rojo corresponde al porcentaje de error que

se suministra en la tabla 1 para el canal G, resaltada en color verde .

Figura 29. Matriz confusion red neuronal canal G

Fuente: autores

Tabla 2. Matriz de confusión clasificador KNN en canales RGB

KNN CANAL R CANAL G CANAL B

Clase 1 105 95 168 32 79 121

Clase 2 73 127 57 143 75 125 Fuente: Autores.

En la tabla 2 es posible observar para cada canal el número de muestras bien

clasificadas en la parte izquierda y mal clasificadas en la parte derecha esto para

la clase 1, para la clase dos el orden se invierte en la parte derecha se encuentran

los datos bien clasificados y en la parte izquierda los datos mal clasificados , esto

permite que si se hacen los procedimientos adecuados matemáticamente se puede

comprobar que el clasificador de vecinos más cercanos según su matriz de

confusión tiene errores de R=42%, G= 22%, B= 49%.

Tabla 3. Matriz de confusión clasificador Bayes en canales RGB

BAYES CANAL R CANAL G CANAL B

Clase 1 159 41 178 22 99 101

Clase 2 81 119 47 153 110 90 Fuente: Autores

En la tabla 3 es posible evidenciar para cada canal el número de muestras bien

clasificadas en la parte izquierda y mal clasificadas en la parte derecha esto para

la clase 1, para la clase dos el orden se invierte en la parte derecha se encuentran

los datos bien clasificados y en la parte izquierda los datos mal clasificados , esto

permite que si se hacen los procedimientos adecuados matemáticamente se puede

comprobar que el clasificador de Bayes según su matriz de confusión tiene errores

de R=30%, G= 17.2%, B= 52%.

Tabla 4. Matriz de confusión máquinas de soporte vectorial en canales RGB

SVM CANAL R CANAL G CANAL B

Clase 1 79 121 165 35 31 169

Clase 2 35 165 35 165 35 165 Fuente: Autores

En la tabla 4 se observa para cada canal el número de muestras bien clasificadas

en la parte izquierda y mal clasificadas en la parte derecha esto para la clase 1,

para la clase dos el orden se invierte en la parte derecha se encuentran los datos

bien clasificados y en la parte izquierda los datos mal clasificados , esto permite que

si se hacen los procedimientos adecuados matemáticamente se puede comprobar

que el SVM según su matriz de confusión tiene errores de R=39%,

G= 17.5%, B= 51%.

7. CONCLUSIONES

Se pudo concluir en el momento de la adquisición de las imágenes que es preferible

llevar a cabo este proceso en el momento en que el cultivo se encuentra en fase

temprana, esto permite que sea más perceptible la presencia de los dos agentes a

procesar, ya que como se había mencionado a lo largo del documento existen

ocasiones en las que la planta cultivada y la maleza tienden a entrelazarse y esto

dificulta en gran manera la diferenciación de estas. Un adecuado procesamiento de

imágenes significa un aumento en el nivel de efectividad en el momento de realizar

la detección, no existe un método específico de visión artificial para la detección de

cualquier elemento y su efectividad dependerá de un buen entrenamiento del

sistema, es importante saber que lo que determina la precisión de la segmentación

es el tipo de algoritmo que se use, más allá del sistema de color utilizado o el número

de clases presentes en la clasificación.

La minería de datos permite un análisis exhaustivo en la forma en que se deben

emplear los datos recolectados, gracias a esto fue posible determinar que los

canales en los que se puede percibir la diferencia entre las dos clases y estos fueron

exactamente los canales en los que se trabajaron y se obtuvieron buenos resultados

después de la clasificación.

Existen diferentes técnicas de clasificación, particularmente se implementan cuatro

las cuales son regla del vecino más cercano, clasificador Bayesiano, máquinas de

soporte vectorial y por último redes neuronales, durante el desarrollo de la

investigación se pudo notar que las redes neuronales ofrecen gran

desenvolvimiento en cuanto a clasificación, es notoria las múltiples ventajas que

estas tienen por el simple hecho de “aprender” a detectar las características que

mejor ayudan a clasificar los datos, aun cuando la interpretación y clasificación de

estos tienen un alto grado de complejidad, otro factor que da preferencia a las redes

neuronales es el bajo porcentaje de error que estas alcanzaron en la clasificación

de datos y el corto tiempo de procesamiento que requiere, a diferencia de los demás

clasificadores, estas tienen mayor simplicidad de ejecución inclusive no se hace

necesario tener un código de programación al momento de inicializarlas, todas estas

ventajas al final se vieron reflejadas con los resultados obtenidos.

Aunque las redes neuronales presentaron el menor porcentaje de error, es posible

decir que en términos generales los 4 cuatro clasificadores tienen un bueno

desempeño ya que las diferencias entre redes, Bayes y SVM son muy pequeñas y

esto los hace competentes sea el método que se quiera implementar por sus

resultados, estos tres en especial ofrecen confiabilidad.

BIBLIOGRAFÍA

ÁNGEL A. Juan. MÁXIMO SEDANO, Alicia Vila. Clasificador de Bayes[en línea], [Citado el 30 de Noviembre de 2015], disponible en internet: < http://goo.gl/2Z7mb2>

BETANCOURT Diego Mauricio. Sistema de visión por computador para detectar hierba no deseada en prototipo de cultivo de frijol usando ambiente controlado.64p. Trabajo de grado (Ingeniero). Universidad católica de Colombia. Facultad de ingeniería. Electrónica y telecomunicaciones. visión artificial.

Centro Integrado Politécnico ETI Tudela, Visión artificial [en línea], [citado en 26 de agosto de 2015], disponible en internet: <http://goo.gl/ZqOvSq>

CETINA Victor, aprendizaje por refuerzo, Universidad Autónoma de Yucatán, 2012

CHAVEZ, Procesamiento de imágenes [en línea], Puebla, Universidad de las

Américas puebla, [citado en 6 de Julio de 2015] disponible en internet:

<http://goo.gl/JpssfW>1

COLMENARES Gerardo. Inteligencia artificial, máquinas de soporte vectorial, [citado 15 abril 2012], disponible en internet < http://goo.gl/H2ZrpI >

CORREDOR GÓMEZ Jennifer Paola. Desarrollo de un sistema de control en la aplicación de técnicas selectivas de eliminación de maleza Bogotá 1 febrero 2011.Trabajo de grado (Ingeniero). Universidad Nacional de Colombia. Facultad de ingeniería. visión artificial.

CRIOLLO Paola Jimena , OBANDO Melissa , SÁNCHEZ M. Leonardo, BONILLA Ruth. Efecto de bacterias promotoras de crecimiento vegetal (PGPR) asociadas a Pennisetum clandestinum en el altiplano cundiboyacense. EN: Revista Corpoica - Ciencia y Tecnología Agropecuaria (2012) 13(2), pag.189-195.

ESPINOSA GUALDRON Diana Judith, MUÑOZ NEIRA Milton Javier. Entrenamiento de una red neuronal artificial para la clasificación de hojas asociadas al cultivo de maíz. EN: UniSangil, Facultad de Ciencias Naturales e Ingeniería, San Gil Colombia

GARCÍA, V. VÁSQUEZ, A. Los Robots en el Sector Agrícola. EN: Universidad Politécnica de Madrid, Departamento de Automática, Ingeniería Electrónica e Informática Industrial

Geometría euclidea [en línea], [citado en 14 de agosto de 2015], disponible en internet: <http://goo.gl/nCWGJO>

Glosario de visión artificial [en línea], [citado en 26 de julio de 2015], disponible en internet <http://goo.gl/OjaIfc>

GONZÁLEZ ABRIL L. Modelos de Clasificación basados en Máquinas de Vectores, [citado 25 agosto 2013], disponible en internet: < http://goo.gl/1I1ndd>

GUO-QUAN Jiang, CUI-JUN Zhao, YONG-SHENG Si. A machine vision based crop rows detection for agricultural robots, Wavelet Analysis and Pattern Recognition (ICWAPR). EN: International Conference on. 2010.Pag. 114 - 118

Inmensia, umbralizacion de la imagen [en línea] [citado en 8 de agosto de 2015], disponible en internet: < http://goo.gl/1TCwCi>

KATAOKA, T. ; KANEKO, T. ; OKAMOTO, H. ; HATA, S. Crop growth estimation system using machine vision. EN: Industrial Electronics Society, IECON 39th Annual Conference of the IEEE, Vol 2; Pag. b1079 - b1083.

LA SERNA PALOMINO, Nora. ROMÁN CONCHA, Ulises. Técnicas de Segmentación en Procesamiento Digital de Imágenes. En: Universidad Nacional Mayor de San Marcos Facultad de Ingeniería de Sistemas e Informática, 2012.

La visión artificial: una tecnología versátil para la automatización de las máquinas agrícolas, Club Bologna 21ᵃ Reunión plenaria, Marzo 2011pag 74-80

MATEO JIMÉNEZ, Fernando. Redes neuronales y preprocesado de variables para modelos y sensores en bioingeniería, Valencia, Junio de 2012

MATICH DAMIAN Jorge, Redes Neuronales: Conceptos Básicos y Aplicaciones. Universidad Tecnológica Nacional, 2001 disponible en internet:< http://goo.gl/ifsX97>

MATLAB MATHWORKS, [Citado el 30 de Noviembre de 2015] Disponible en internet:<http://www.mathworks.com/>

MATLAB MATHWORKS, Maquinas de soporte vectorial [en línea], [citado en 3 de octubre de 2015], disponible e internet: <http://goo.gl/qtY10V>

MATWORKS, Detección de bordes [en línea], [citado en 6 de octubre de 2015], disponible en internet <http://goo.gl/jPpGJ3>

MINISTERIO DE EDUCACION Y CIENCIA Gimp, Aplicaciones didácticas [en línea], [citado en 4 de septiembre de 2015] disponible en internet: < http://goo.gl/4cpBGC>

Moltoni Andrés, Moltoni Luciana. Pulverización selectiva de herbicidas: implicancias tecnológicas y económicas de su implementación en la argentina. EN: instituto de ingeniería rural.

MORENO GARCÍA, María, MIGUEL QUINTALES, Luis, GARCÍA PEÑALVO, Francisco, POLO MARTIN, José. Aplicación de técnicas de minería de datos en la construcción y validación de modelos predictivos y asociativos a partir de especificaciones de requisitos de software. EN: Universidad de Salamanca, España.

Ramírez Escalante, Boris. Procesamiento Digital de Imágenes [en línea], Verona, [citado agosto, 2006] Disponible en internet: <http://goo.gl/EABCQ3 >

RAMÍREZ OSUNA Daniela Guadalupe. Desarrollo de un método de procesamiento de imágenes para la discriminación de malezas en cultivos de maíz. Querétaro, mayo 2012. Trabajo de grado. (Ingeniero) Universidad Autónoma de Querétaro.

RICARDO ALER MUR. Clasificadores KNN-I [en línea], [citado en 14 de noviembre de 2015], disponible en internet: <http://goo.gl/WYqwUn>

Technolabsz Canal HSV [en línea], [citado en 5 de agosto de 2015] ,disponible en internet:< https://goo.gl/ov8IPJ

TELLAECHE, A. ; BURGOS ARTIZZU, X.P. ; PAJARES, G. ; RIBEIRO, A. A Vision-based Classifier in Precision Agriculture Combining Bayes and Support Vector Machines, Intelligent Signal Processing. EN: WISP IEEE International Symposium on, 2007; Pag. 1 – 6

UNIVERSITAT DE GIRONA, Operaciones morfológicas [en línea], [citado en 25 de marzo de 2015], disponible en internet: <http://goo.gl/6JE52X>

WEYRICH, M.YONGHENG Wang ; SCHARF, M. Quality assessment of row crop plants by using a machine vision system. EN: Industrial Electronics Society, IECON 39th Annual Conference of the IEEE, 2013; Pag. 2466 – 2471