tÉcnicas de minerÍa de datos para la detecciÓn y ... · ducción, parcial o total, del...

35
TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN DEL TERRORISMO (LA/FT) DOCUMENTOS UIAF

Upload: others

Post on 03-Nov-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

Bogotá D.C.2014

TÉCNICAS DE MINERÍADE DATOS PARA LA

DETECCIÓN Y PREVENCIÓNDEL LAVADO DE ACTIVOS

Y LA FINANCIACIÓNDEL TERRORISMO (LA/FT)

DOCUMENTOS UIAF

Page 2: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/1/1

2014

Técnicas de minería de datos para la detección y prevención del lavado de activos y la fi nanciación del terrorismo (LA/FT)

Page 3: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/2

DIRECTOR GENERAL

EQUIPO DE PRODUCCIÓN

Esta publicación fue realizada por la Unidad de Información y Análisis Financiero (UIAF), Unidad Administrativa Especial adscrita al Ministerio de Hacienda y Crédito Público.

Unidad de Información y Análisis FinancieroLuis Edmundo Suárez Soto

Unidad de Información y Análisis FinancieroEste documento fue desarrollado por servidores públicos de la UIAF, con el soporte de un equipo in-terno de coordinación editorial y bajo la dirección del Director General y el Subdirector de Análisis Es-tratégico.

CORRECCIÓN DE ESTILO, DISEÑO, DIAGRAMACIÓN E IMPRESIÓN

García Solano y Compañía SAS - Caliche ImpresoresImpresores Molher LTDA

Page 4: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/3

ISBN:978-958-58578-5-8Primera edición© 2014, UIAF

De acuerdo con lo previsto en el Artícu-lo 91 de la Ley 23 de 1982, los derechos de autor del presente documento per-tenecen a la Unidad de Información y Análisis Financiero (UIAF).

Queda prohibida cualquier repro-ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis contenidos son de carácter general y no hacen re-ferencia ni constituyen prueba so-bre vínculos ciertos y permanentes de individuos con actividades aso-ciadas al lavado de activos y finan-ciación del terrorismo.

La UIAF no se responsabiliza por el uso (acción u omisión) que haga cualquier persona o grupo de per-sonas de la información (total o parcial) contenida en el texto.

Page 5: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/4

Page 6: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/5

TABLA

DE

CO

NTE

NID

O

CONCLUSIONES

pag 30

3pag 20

APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LA/FT

2pag 13

PROCESO DE GENERACIÓN DECONOCIMIENTO O KDD

EL MODELO SAB Y LA MINERÍA DE DATOS1

pag 10

INTRODUCCIÓN

pag 8

Page 7: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/6

“Puedes utilizar todos los datos cuantitativos a tu alcance; aun así, debes desconfiar de ellos y utilizar tu propia inteligencia y juicio” (Alvin Toffler, escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).

TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN DEL TERRORISMO (LA/FT)

Page 8: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/7

Page 9: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/8

INTR

OD

UCCIÓ

N El lavado de activos consiste en ocultar, manejar, invertir o apro-vechar, en cualquier forma, dine-ro u otros bienes provenientes de actividades delictivas, o para dar apariencia de legalidad a las tran-sacciones y fondos vinculados con las mismas, actividad que con el tiempo ha trascendido del sector financiero a diferentes entornos de la economía, donde contami-na y desestabiliza los mercados, poniendo en riesgo los pilares eco-nómicos, políticos y sociales de la democracia (Blanco, 1997).

La inteligencia financiera y econó-mica juega un papel fundamental en ese contexto, dado que a través del análisis y conocimiento que produce, busca prevenir y detectar muchas de las actividades ilícitas antes descritas y, así mismo, con-tener sus impactos. Ante un cre-ciente volumen de información por centralizar y estudiar, y en aras de desempeñar una labor más efec-tiva, se hace necesario emplear técnicas de análisis de datos más complejas y dinámicas a la esta-dística, para lograr, finalmente, la extracción de conocimiento no implícito. Concretamente, se trata de herramientas como la minería

Page 10: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/9

de datos, la cual apoya el proceso de Knowledge Discovery in Data Ba-ses (KDD), que consiste en analizar grandes volúmenes de datos para generar conocimiento útil a favor de la toma de decisiones.

El objetivo de este documento es presentar las principales técnicas de minería de datos (MD) utilizadas para describir, clasificar y detectar irregularidades a partir de la crea-ción de perfiles “normales” tran-saccionales, facilitando el hallaz-go de patrones o reglas generales (incluye métodos de agrupación) en el registro histórico de las tran-sacciones. En contraste, los proce-dimientos de predicción describen las proyecciones obtenidas a partir de diversas metodologías1 para pronosticar el comportamiento futuro de las transacciones reali-zadas. En la actualidad se utilizan las siguientes: Redes Neuronales, Árboles de Decisión y Bayes; así mismo, se emplean sistemas de aprendizaje autónomo para reco-nocimiento de patrones que par-ten de eventos históricos.

Este documento consta de cuatro secciones: primero, una contex-tualización sobre la aplicación de técnicas de minería de datos2 en el

desarrollo tecnológico de la UIAF, desde la implementación del mo-delo de gestión Sistémico, Amplio y Bidireccional (SAB), en los últi-mos casi cuatro años; continúa, con una presentación del proceso de generación de conocimiento KDD, que abarca desde la obten-ción de información hasta la apli-cación del conocimiento adquirido para la toma de decisiones, segui-da por una explicación de la apli-cación de técnicas de minería de datos para la detección y preven-ción del lavado de activos (LA) y la financiación del terrorismo (FT); y, finalmente, ofrece unas conclusio-nes generales.

1 Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito, Cámara de Comercio de Bogotá, Embajada Británica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.2 Para conocer el contexto histórico de la minería de datos, consultar, (2014) Aplicabilidad de la Minería de Datos y el Análisis de Redes Sociales en la Inteligencia Financiera. Bogotá: Unidad de Información y Análisis Financiero.

Page 11: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/10

EL MODELO SAB

01Y LA MINERIA DE DATOS

Page 12: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/11

Con el diseño y aplicación en la UIAF del modelo de gestión Sis-témico, Amplio y Bidireccional (SAB)3, se han potencializado las capacidades de análisis y respues-ta del Sistema Nacional Antilavado de Activos y Contra la Financiación del Terrorismo (ALA/CFT). En parti-cular, su componente “Amplio”, al incorporar nuevas fuentes de infor-mación, propende por la creación de más y mejores sensores que aporten datos sobre la evolución de las diferentes actividades eco-nómicas en el país, requiriendo, así mismo, una mayor capacidad de análisis.

En este contexto, bajo el mode-lo SAB, la UIAF crea la Plataforma de Inteligencia Económica (PIE), basada en un conjunto de hard-ware y so�ware, que se potencia-liza gracias a la integración de un equipo humano con las capacida-des necesarias para utilizar estas herramientas, implementando metodologías provenientes de las Matemáticas, Estadística, Econo-mía, Finanzas y otras ciencias, con el fin de mejorar el entendimiento de la amenaza y producir mejores resultados en el Sistema ALA/CFT.

En particular, las herramientas de minería de datos, objeto de este documento, facilitan la identifica-ción de patrones y tendencias. Así mismo, permiten identificar tran-sacciones atípicas, posiblemente relacionadas con los delitos men-cionados.

La aplicación de estas técnicas le ha permitido a la UIAF optimizar tiempo y recursos en el desarrollo de la inteligencia financiera y, prin-cipalmente, robustecer la informa-ción y análisis que produce en apo-yo a las autoridades competentes, (como fuerzas del orden, Fiscalía General de la Nación), entre otros agentes, de acuerdo con las posi-bilidades y restricciones legales de cada uno. Lo anterior reafirma el carácter Amplio y Bidireccional del modelo SAB, al fortalecer la articu-lación entre los agentes del siste-ma, para mejorar la efectividad de sus resultados.

La estructura del modelo SAB, des-de la perspectiva de la recolección y procesamiento de información, se resume en la Figura 1; tener este contexto presente, ayudará a ilus-trar la utilidad de las técnicas de minería de datos abordadas en el

3 Para conocer el contexto histórico, la estructura y los componentes del modelo SAB, consultar. Suárez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia Financiera y el Sistema Antilavado de Activos y Contra la Financiación del Terrorismo. Un Nuevo Modelo de Gestión: Sistémico, Amplio y Bidireccional. Segunda edición. Bogotá: Unidad de Información y Análisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569

Page 13: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/12

presente documento, el cual busca ofrecer una perspectiva detallada sobre la aplicación de las mismas y servir como punto de referencia de especialistas del sistema nacional e internacional ALA/CFT (especial-

mente, pero no exclusivamente, otras Unidades de Inteligencia Fi-nanciera - UIF), para quienes el co-nocimiento aquí desarrollado pue-de aportar a sus propias labores y efectividad.

Figura 1. Modelo SAB – recolección, manejo y procesamiento de información

*Volumen*Velocidad*Variedad*Veracidad

Reportantes*Entidades del estado*Gremios*Organismos internacionales*Centros académicos

Base de DatosPolitemáticas

Más y MejoresSensores

InteligenciaFinanciera y Económica

Plataforma deInteligenciaEconómica

*Análisis financiero*Análisis económico*Análisis matemático y Estadístico*Análisis visual

*Entender el Pasado*Monitorear el Presente*Anticipar el Futuro

Mejoras en la Calidad de dos Reportes:Crecimiento Continuo del Sistema ALA/CFT

Más Capacidadesde Detección y

Judicialización:Mejores

Resultados

Mejor Entendimiento de

la Amenaza

Page 14: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/13/13

PROCESO DE GENERACIÓN

02DE CONOCIMIENTO O KDD

Page 15: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/14

El proceso de Knowledge Disco-very in DataBases (KDD) surte cua-tro pasos para la generación de conocimiento. Estas etapas pue-den ser recursivas, es decir, que se retorna a ellas una y otra vez (pro-ceso iterativo) a medida que se ob-tienen resultados preliminares que requieren replantear las variables iniciales.

A continuación se expone una for-ma de representar el proceso que puede ser empleado por cualquier unidad de inteligencia financiera para la generación de conocimien-to sobre posibles operaciones de LA/FT (ver Figura 2).

Figura 2. Proceso de KDD

Bases de datos

Nueva base de datos

Selección deatributos

DatosPreprocesados

DatosTransformados

Patrones

Generaciónde conocimiento

Limpieza basede datos

Selección

Procesamiento

Transformación

Mineríade datos

Interpretación y resultados

Page 16: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/15

En adelante se describen cada una de las etapas del proceso.

Es la etapa más dispendiosa (re-quiere cerca del 90% del tiempo), como se describe en Fayyad et. al. (1996), ya que consiste en la reco-lección y preparación de los datos. En este proceso se comprende la problemática asociada a la base de datos y se establecen objetivos. A la vez, se identifican las variables que serán consideradas para la construcción del modelo de mine-ría de datos (MD).

De acuerdo con el origen de cada tabla(s) de datos, se establece el mecanismo que se utilizará para extraer la información requerida por el modelo; también incide la opinión del experto, quien pue-de sugerir las series que explican parcialmente la variable objetivo (clase).

Integración de datos: Se analiza si la base de datos requiere incluir o integrar información o va-riables que reposan en otras bases de datos, y que será relevante para el modelo de minería de datos. Si es necesario, se realiza un modelo de entidad-relación entre tablas, el cual permite representar las en-tidades relevantes (representacio-nes gráficas y lingüísticas) de un sistema, así como sus propiedades e interrelaciones (Ávila, 2005).

Reconocimiento y lim-pieza: Se depura el conjunto de datos respecto a valores atípicos, faltantes y erróneos (eliminación de ruido e inconsistencias).

1. Selección de los datos

2. Pre procesa-miento de datos

Page 17: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/16

Exploración y limpieza de datos: Aplicando técnicas de análisis exploratorio de datos (es-tadístico, gráfico, entre otros), se busca identificar la distribución de los datos, simetría, pruebas de normalidad y correlaciones exis-tentes entre los datos. En esta etapa es útil el análisis descriptivo del conjunto de datos (clustering y segmentación, escalamiento, re-glas de asociación y dependencia, reducción de la dimensión), iden-tificación de datos nulos, ruido y outliers, así como el uso de matri-ces de correlación (si las variables son numéricas), diagramas (barras, histogramas, caja y bigotes), entre otras técnicas adecuadas de mues-treo.

Transformación: Se es-tandariza o normaliza la infor-mación (colocarla en los mismos términos de formato y forma). La selección de la técnica a aplicar de-penderá del algoritmo que se utili-zará para la generación de conoci-miento. Las técnicas comúnmente utilizadas son: discretización, esca-

lado (simple y multidimensional) y estandarización.

Reducción de datos: Se disminuye el tamaño de los datos mediante la eliminación de carac-terísticas redundantes.

Selección/extracción de atributos: Se realiza un proceso de identi-ficación y selección de variables relevantes. Entre las técnicas más utilizadas para este proceso se en-cuentran, métodos basados en fil-tros y en wrappers (seleccionan los atributos en función de la calidad del modelo de MD asociado a los atributos utilizados).

Construcción de atributos: En caso que los datos se encuen-tren asociados a patrones comple-jos, se construye un atributo sen-cillo que facilite la interpretación del algoritmo. Se puede recurrir a diferentes técnicas, como la cons-trucción guiada por los datos, el modelo o el conocimiento; finaliza cuando se han analizado y selec-cionado las técnicas de extracción de conocimiento que mejor se adapten al lote de datos.

3. Selección de características

Page 18: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/17

La minería de datos según Esteban (2008) et. al. (1991 / 1995), se puede definir como un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos, que a su vez, facilita la toma de decisiones y emplea técnicas de aprendizaje supervisado y no-su-pervisado. En la fase se define el tipo de investigación a realizar de acuerdo con las características de los atributos que conforman la base de datos, que pueden ser de tipo descriptivo4 y/o predictivo. El siguiente paso es la elección y apli-cación de métodos de extracción de conocimiento y la selección de medidas de validación para eva-luar el rendimiento y la precisión del(os) método(s) escogido(s) por el analista de MD.

A continuación se presentan las técnicas empleadas, las cuales pueden ser de tipo supervisado o no supervisado.

• Identificación: Eviden-ciar la existencia de objetos, even-tos y actividades en el conjunto de datos (análisis factorial, discrimi-nante, regresivo, de correlaciones).

• Clasificación: Particionar los datos de acuerdo a las clases o etiquetas asignadas al conjunto de datos (ej: tablas de decisión, reglas de decisión, clasificadores basados en casos, redes neuronales, clasifi-cadores bayesianos y clasificado-res basados en acoplamientos).

• Agrupación: Permitir la maximización de similitudes y mi-nimización de diferencias entre objetos, mediante la aplicación de algún criterio de agrupación.

• Asociación: Tener pre-sente que las reglas de asociación buscan descubrir conexiones exis-tentes entre objetos identificados.

• Predicción: Descubrir el comportamiento de ciertos atribu-tos en el futuro. (Regresión y series temporales, análisis discriminante, métodos bayesianos, algoritmos genéricos, árboles de decisión, re-des neuronales).

4 Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.

4. Minería de Datos

Page 19: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/18

El proceso más importante en mi-nería de datos es el proceso de limpieza de los datos y definición de las variables. Si los datos no son correctos el modelo creado no ser-virá. Del mismo modo, la validez de los patrones descubiertos depen-de de cómo se apliquen al mundo real o a las circunstancias. Aunque integra el conocimiento de dife-rentes fuentes como la Biología, Matemáticas, Estadística, Ciencias Sociales, entre otras, la minería de datos presenta diferencias impor-tantes, por ejemplo, respecto a la estadística, la cual plantea una hi-pótesis y usa datos para probarla o refutarla. La eficacia de este en-foque se ve limitada por la creati-vidad del usuario para desarrollar las diversas hipótesis, así como por la estructura del so ̈ware que uti-liza; por el contrario, la minería de datos emplea una aproximación de descubrimiento para examinar simultáneamente varias relaciones en bases de datos multidimensio-nales, identificando aquellas que se presentan con frecuencia (2008).

Se analizan los resultados de los patrones obtenidos en la fase de MD, mediante técnicas de visuali-zación y de representación, con el fin de generar conocimiento que aporte mayor valor a los datos. En esta fase se evalúan los resultados con los expertos y, si es necesario, se retorna a las fases anteriores para una nueva iteración. Las ac-tividades mencionadas anterior-mente se resumen en la Figura 3.

5. Interpretación y Resultados

Page 20: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/19

Figura 3. Proceso de generación de conocimiento automático

Selección de técnicas de

MD:Det. Algoritmica y

análisis de resultados parciales.

Integración reconocimiento y limpieza de datos

(analisis exploratorio y estadístico)

Consolidación de conocimiento -

Patrones deconocimiento

Despliegue

Resultados de Data-set

vs. algoritmos de validación (cross validation, split

validation, otros)

Evaluación

Transformación dedatos (discretizacion,normalización otros

depende del conjunto de datos)

Comprensión y analisis de

información

Reducción de datosEliminación de datos

redundantes, selección de atributos, clases y

conjuntos.Construcción de

atributos.

Modelación

Preprocesamiento

Page 21: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/20

03PARA LA DETECCIÓN Y PREVENCIÓN DEL LA/FT

APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS

Page 22: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/21

Durante la última década, el crecimiento de las bases de datos (BD) ha traído consigo la dificul-tad para analizar la información, lo que ha llevado a desarrollar herra-mientas de análisis cada vez más sofisticadas y potentes que per-mitan la exploración y análisis de información, generando patrones de conocimiento no trivial válidos, útiles y comprensibles. Uno de es-tos casos es el de la información respecto a actividades criminales como el tráfico de drogas, soborno y contrabando, delitos que gene-ran cuantiosas ganancias y derivan en un alto volumen de transaccio-nes, realizadas con un creciente nivel de complejidad para escon-der el origen ilícito de los recursos, dificultando así la detección de los entes de control. En este sentido, diversos países de-sarrollados han avanzado significa-tivamente en emplear sistemas de monitoreo online para la detección de operaciones de lavado de acti-vos y financiación del terrorismo (LA/FT). El Financial Artificial Inte-lligence System (FAIS) del Financial Crime Enforcement Network (Fin-CEN) de Estados Unidos, integra el criterio de expertos con herramien-

tas tecnológicas para identificar operaciones potencialmente rela-cionadas con LA, configurando así un sistema antilavado automático (ALM) (Senator et. al., 1995), el cual se entiende como una inversión a largo plazo para prevenir el ingreso de dinero de origen ilícito a la eco-nomía legal.

Varias técnicas de aprendizaje au-tomático han sido implementa-das para la detección de fraude y de lavado de activos, cuya tasa de clasificación ha sido alta (verda-deros positivos y falsos positivos bajos), comparados con técni-cas tradicionales (Maimon et.al., 2003/2007/2010).

Tomando el caso de los Sistemas Antilavado de Activos y Contra la Financiación del Terrorismo (ALA/CFT), los procedimientos aplicados más conocidos son:

• Algoritmos de agrupa-ción: También denominados pro-cedimientos de clustering, buscan generar nuevos conjuntos a partir de los datos analizados, tales que los individuos en un mismo grupo sean lo más parecidos posible y que, simultáneamente, cada grupo sea lo más diferente posible. Estos

Page 23: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/22

métodos trabajan con la distancia que hay entre cada elemento y el centro de cada uno de los grupos, asignando el individuo al grupo al cual se encuentre más cerca.

La complejidad de estos algorit-mos radica en la definición de un criterio para establecer distancias o similitudes y el procedimiento recursivo que se sigue para confor-mar cada uno de los grupos hasta satisfacer los criterios establecidos. Entre estos métodos se encuen-tran los jerárquicos, de partición, basados en densidades, modelos y cuadrículas y los computacionales (Maimon y Rokach, 2010). Ejemplo: para la detección de outliers. Sin embargo, estos métodos no pue-den identificar tendencias de com-portamiento sospechoso.

• Reglas de asociación: Examinan todas las posibles com-binaciones de características con-tenidas en una base de datos y determinan la probabilidad de configuración de estos rasgos. Ejemplo: un individuo se puede definir de acuerdo con el tipo de persona (natural o jurídica), sector económico, grupo de frecuencia de transacciones y relación con una investigación de inteligencia eco-

nómica. Las reglas de asociación evalúan todas las posibles combi-naciones de estas características y determinan las configuraciones más probables (Maimon y Rokach, 2010).

Los modelos predictivos de MD buscan obtener los valores adqui-ridos por una variable de interés en situaciones no observadas (ej: el futuro), en función de los valores que toman otras series relaciona-das. En el contexto de la lucha ALA/CFT, este tipo de algoritmos permi-te establecer los comportamientos del individuo relacionados con su judicialización por una actividad delictiva, o su inclusión en un caso de inteligencia financiera o reporte de operación sospechosa (ROS). A continuación se describen algunos métodos principales:

• Árboles de decisión: Un árbol de decisión es un modelo de clasificación que divide un conjun-to de análisis, buscando el mayor grado de pureza entre los grupos resultantes5 . En todo árbol hay un nodo inicial denominado raíz, que contiene la totalidad de la informa-ción. Este grupo se subdivide en dos o más grupos denominados como internos, si continúan sub-

5 Pureza se entiende como la presencia representativa de una de las características que toma la variable de interés (junto con la participación insignificante de la otra categoría).

Page 24: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/23

dividiéndose, o terminales u hojas, si no enfrentan más segmentación (Maimon y Rokach, 2010).

En un árbol de clasificación cada nodo interno se parte de acuerdo a una función discreta sobre las variables utilizadas para el análisis, hasta llegar a los nodos termina-les donde se tiene la proporción de individuos ubicados en cada

6 Dependiendo del lenguaje de desarrollo empleado para la construcción del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que J48 fue desarrollado en Java.

una de las categorías que toma la variable de interés. Se dispone de varios algoritmos para la genera-ción de árboles de decisión, entre los cuales se cuentan ID3 (intro-ducido por Quinlan en 1986), C4.5 o J486 , CART, CHAID Random Tree y QUEST (Safavin y Landgrebe, 1991). En la Figura 4 se presenta un ejemplo de la aplicación del C4.5.

Figura 4. Ejemplo de aplicación de C4.5

a4

a3

a3

a4

a3

Iris-setosa

Iris Versicolor

Iris Virginica

Iris Virginica

Iris Virginica

> 1.750

< 1.750

> 2.450 < 2.450

> 5.350< 5.350

> 4.950

> 1.550 < 1.550

< 4.950

Iris Versicolor

Page 25: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/24

• Redes neuronales arti-ficiales (RNA): Son un sistema de aprendizaje y procesamiento automático inspirado en la forma como funciona el sistema nervio-so animal, que parte de la interco-nexión de neuronas que colaboran entre sí para generar un resultado. Esta salida o resultado proviene de tres funciones (Maimon y Rokach, 2010):

1. Propagación (función de excita-ción): Es la sumatoria de cada en-trada multiplicada por el peso de su interconexión (valor neto). Si el peso es positivo, la conexión se de-nomina excitatoria, y si es negativo, se denomina inhibitoria.

2. Activación (modifica a la fun-ción anterior): su existencia no es obligatoria, siendo en este caso la salida, la misma función de propa-gación.

3. Transferencia: se aplica al valor devuelto por la función de activa-ción. Se utiliza para acotar la sali-da de la neurona y generalmente viene dada por la interpretación que se desee dar a dichas salidas. Algunas de las más utilizadas son la función sigmoidea (para obte-ner valores en el intervalo [0,1]) y la

tangente hiperbólica (para obtener valores en el intervalo [-1,1]).

Las RNA usualmente implemen-tadas dependen del patrón de co-nexiones que representan. Existen varias formas de clasificarlas. Por topología se definen dos tipos bá-sicos:

1. Feed-forward Neural Net (FNN): Redes de propagación progresivas o acíclicas, en las que las señales avanzan desde la capa de entrada hacia la salida, sin presentar ciclos ni conexiones entre neuronas de la misma capa. Pueden ser de dos tipos: monocapa (ej. perceptrón, Adaline) y multicapa (ej. Percep-trón multicapa. Ver Figura 5).

2. Recurrent Neural Network (RNN): Redes neuronales recurrentes, que presentan al menos un ciclo cerra-do de activación neuronal (ej. El-man, Hopfield, máquina de Boltz-mann).

Page 26: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/25

Figura 5. RNA perceptrón multicapa

Una segunda clasificación es en función del tipo de aprendizaje:

1. Supervisado: Requieren un con-junto de datos de entrada previa-mente clasificado. Tal es el caso del perceptrón simple, la red Ada-line, el perceptrón multicapa, red backpropagation, y la memoria asociativa bidireccional.

2. No supervisado o autoorganiza-do: No necesitan de un conjunto previamente clasificado. Tal es el caso de las memorias asociativas, las redes de Hopfield, la máqui-na de Boltzmann y la máquina de Cauchy, las redes de aprendizaje competitivo, las redes de Koho-nen o mapas autoorganizados y las redes de resonancia adaptativa (ART).

12

m

1

1

3

n

Entrada 1

Capa de entrada

Capaoculta

Capa de salida

Entrada 2

Entrada 3

Salida

Entrada n

2

Page 27: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/26

3. Redes híbridas: Son un enfoque mixto en el que se utiliza una fun-ción de mejora para facilitar la con-vergencia. Ej: redes de base radial.

4. Reforzado: Se sitúa a medio ca-mino entre el supervisado y el au-toorganizado.

Una tercera clasificación está en función del tipo de entrada:

1. Redes analógicas: Procesan da-tos de entrada con valores conti-nuos que normalmente son aco-tados. Ej. Hopfield, Kohonen y las redes de aprendizaje competitivo.

2. Redes discretas: Procesan datos de entrada de naturaleza discre-ta (habitualmente valores lógicos booleanos). Ej: máquinas de Boltz-mann y Cauchy, y la red discreta de Hopfield.

• Naive Bayes: Este tipo de algoritmo comparte elementos de la biología, inteligencia artificial y estadística. Están definidos por un grafo donde existen nodos que representan variables aleatorias junto con sus enlaces, los cuales hacen referencia a dependencias entre las mismas. El éxito de las redes bayesianas se debe a su ha-

bilidad para manejar modelos pro-babilísticos complejos al descom-ponerlos en componentes más pequeños y digeribles. Se utilizan para investigar relaciones entre variables y para predecir y explicar su comportamiento al calcular la distribución de probabilidad con-dicional de una variable, dados los valores de otras series de interés (Maimon y Rokach, 2010).

• Máquinas de soporte vectorial (MSV): Son un conjun-to de algoritmos de aprendizaje supervisado, relacionados con problemas de clasificación y regre-sión. En este contexto, el aprendi-zaje se relaciona con la estimación de funciones a partir de un conjun-to de entrenamiento, que permi-te etiquetar las clases y entrenar una MSV para construir un mo-delo que prediga la clase de una nueva muestra. La MSV construye un hiperplano(s) en un espacio hiperdimensional de máxima dis-tancia respecto a los puntos que estén más cerca del mismo. Estos modelos están estrechamente re-lacionados con las RNA e incorpo-ra la función de Kernel (ej. radial, polinomial, neural, anova, epach-nenikov, combinación gaussiana y multicuadrática). Ver Figura 6.

Page 28: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/27

Las MSV y las RNA obtienen un me-jor resultado pero su costo com-putacional es muy alto, lo que se suma a la complejidad asociada a su interpretación y al entrenamien-to requerido para obtener un buen resultado (LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006). A continuación, un comparativo entre las RNA y MSV (ver tabla 1):

Figura 6. MSV

Tabla 1

Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006

Hiperplano Óptimo

Margenmáximo

x2

x1

RNA MSVLas capas ocultas transforman a

espacios de cualquier dimensión.Kernels Transforma a espacios de

dimensión muy alta.El espacio de búsqueda tiene

múltiples mínimos locales.El espacio de búsqueda tiene

un mínimo global.El entrenamiento es costoso. El entrenamiento es

altamente eficienteSe establece el número de nodos

y capas ocultas.Se diseña la función de kernel y el

parametro de coste C. Alto funcionamiento en

problemas típicos.Muy buen funcionamiento en pro-

blemas tipicos.Extremadamente robusto para gene-

ralización. Menos necesidad de emplear heurís-

ticos en el entrenamiento.

Page 29: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/28

Yang, 2007), para dar mayor clari-dad al uso de las herramientas de minería de datos en la detección de operaciones de LA o FT. Los autores emplean el método de ár-boles de decisión para obtener re-glas que determinen el riesgo que tienen los diferentes tipos de clien-tes, de un banco comercial en un determinado país, de estar involu-crados en una operación de lavado de activos7. Los datos utilizados corresponden a una muestra alea-toria de 28 individuos provenientes de un universo de 160 mil clientes, para los cuales se utilizan cuatro de 52 variables disponibles: industria, localización, tamaño del negocio y productos abiertos con el banco. Las categorías de cada variable se califican en tres niveles de acuerdo con el riesgo de LA que perciben los gerentes de oficina: L (riesgo bajo), M (riesgo medio) y H (riesgo alto). Por ejemplo, para la variable industria:

• Reglas de inducción: Considerando que los patrones ocultos en grandes bases de datos suelen expresarse como un conjun-to de reglas, aquellas de inducción se adaptan a los objetivos de la MD aun cuando son una de las técni-cas más representativas del apren-dizaje de máquina. Aquí, una regla suele consistir de instrucciones del tipo Si (característica 1, atributo 1) y Si (característica 2, atributo 2) y… y Si (característica n, atributo n) en-tonces (decisión, valor), aunque se pueden encontrar reglas más com-plejas. La información utilizada por este algoritmo es de carácter cate-górico, lo cual facilita en gran me-dida el procesamiento de los datos y el entendimiento de los resulta-dos. Los algoritmos utilizados por las reglas de inducción son LEM1, LEM2 y AQ.

A continuación se documentan los resultados presentados en (Wang y

/ Este enfoque difiere de otros más tradicionales donde el análisis se centra en las transacciones.

Tabla 2Industria Riesgo LA

Manufacturera LQuímica LComercio doméstico MMedicina MTecnología MComercio internacional HComercio al por menor HPublicidad HVenta de Automóviles H

Page 30: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/29

Los autores utilizan el algoritmo ID3 sobre una muestra de entrena-miento de 21 individuos y prueban la validez de los resultados sobre los 7 individuos restantes. La repre-sentación gráfica de los resultados obtenidos es la que se muestra en la Figura 7. En este caso, se eviden-cia que la industria es la variable más relevante en la determinación del riesgo de LA del cliente (se ubi-ca al principio del árbol de deci-sión), seguida por localización y tamaño del negocio.

Al observar el árbol de decisión se observa que los clientes que per-

tenecen a una industria con bajo riesgo de LA (rama marcada como L originada en industria, número 1 en la figura) y una localización con bajo o mediano riesgo (ramas mar-cadas como L y M, números 2 y 3 en la figura) tienen un bajo riesgo de estar involucradas en LA. Por el contrario, un individuo de una industria con alto riesgo (rama marcada como H originada en in-dustria, número 1 en la figura) y tamaño de bajo riesgo (rama mar-cada como L originada en tamaño del negocio, número 4 en la figura), en realidad tienen un alto riesgo de LA.

Figura 7. Resultados presentados en Wang y Yang, 2007.

Bankproducts

Location

Bankproducts

Bussines SizeBussines Size

Industry

Location

1

L M H

L M HL M H

L M H

H

L

L

M

M

H

L M H

2 3 4

High Middle High

High High

Low

LowLow

Middle MiddleMiddle Middle

MiddleMiddleMiddle

Page 31: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/30

CO

NCLU

SIO

NES

Dado el incremento del volumen de la información reportada a las Unidades de Inteligencia Finan-ciera (UIF) y la complejidad de su análisis, son fundamentales las herramientas computacionales robustas, que permitan extraer co-nocimiento no trivial y faciliten la identificación de señales de alerta y construcción y seguimiento de perfiles por sector, respecto a ca-sos atípicos u outliers.

Específicamente, los resultados obtenidos mediante la selección y aplicación de técnicas de minería de datos pueden contribuir al pro-ceso de toma de decisiones en en-tidades especializadas en preven-ción, detección y/o administración del riesgo de LA/FT.

Experiencias nacionales e interna-cionales demuestran que la adop-ción de técnicas de minería de da-tos para la prevención y detección de delitos ha arrojado importantes resultados respecto al hallazgo de patrones de comportamiento de anomalías.

Page 32: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/31

BIB

LIO

GRA

FÍA Ávila Flores, José Salvador (2005).

Sistema de Administración de Red (S.A.R.) Versión 1.0. Universidad Autónoma del Estado de Hidalgo. Instituto de Ciencias Básicas e In-geniería. México.

Blanco Cordero, Isidoro (1997). El delito de blanqueo de capitales. Edit. Aranzadi.

Fayyad, Usama, Piatetsky-Sha-piro, Gregory and Smyth, Pad-hraic (1996). From Data Mining to Knowledge Discovery in Databa-ses. American Association for Arti-ficial Intelligence.

Esteban Talaya, Águeda (2008). Principios de marketing. ESIC Edi-torial. Tercera edición.

LiuXuan, Zhang Pengzhu (2007). An agent based Anti-Money Laun-dering system architecture for fi-nancial supervision. International Conference on Wireless Commu-nications, Networking and Mobile Computing, Septiembre, pp: 5472-5475.

FUENTESACADÉMICAS

Page 33: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/32

Maimon, Oded and Rokach, Lior (2010). Data Mining and Knowled-ge Discovery Handbook. Second Edition. Springer.

Ramírez Quintana, María José y Hernández Orallo, José (2003). “Extracción Automática de Conoci-miento en Bases de Datos e Inge-niería del So¨ware”. España.

Safavin, S.R., Landgrebe, D (1991). A survey of decision tree classifier methodology [J]. IEEE Transac-tions on Systems, Man and Cyber-netics, Vol.21, No.3, pp.660-667.

Senator, Ted E., Goldberg, Henry G. y Wooton, Jerry (1995). The finan-cial crimes enforcement network AI system (FAIS) identifying potential money laundering from reports of large cash transactions[J], AI Maga-zine, Vol.16, No.4, pp. 21-39.

Shijia Gao, Dongming Xu (2007). Conceptual modeling and develo-pment of an intelligent agent-as-sisted decision support system for anti-money laundering. Ex-pert System with Applications, doi:10.1016/j.eswa.

, Huaiqing Wang, Yingfeng Wang (2006). Intelligent

Anti-money Laundering System. International Conference on Ser-vice Operation and Loqistics, and Informatics, SOLI’06, IEEE. pp: 851-856.

Sudjianto, A., Nair, S., Yuan, M., Zhang, A., Kern, D., Cela-Díaz, F. (2010). Statistical Methods for Figh-ting Financial Crimes. Technome-trics 52(1) 5–19.

Virseda Benito, Fernando y Román Carrillo, Javier (sin año). “Minería de datos y aplicaciones”. Universi-dad Carlos III.

Wang, Su-Nan and Yang, Jian-Gang (2007). A money Laundering Risk Evaluation Method Based on Deci-sion Tree. Proceedings of the sixth international conference on Machi-ne Learning and Cybernetics, Hong Kong.

Yue, D., Wu, X. y Wang, Y. (2007). A Review of Data Mining-Based Fi-nancial Fraud Detection Research. In: 2007 Wireless Comm., Networ-king and Mobile Computing, IEEE.

Zhang, Z. y Salerno, J. (2003). Appl-ying data mining in investigating money laundering crimes. Disco-very and data mining (Mlc) 747.

Page 34: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

/33

FUENTESINSTITUCIONALES

Asobancaria (2011). Banco Central Rumiñahui. Construcción y calibra-ción de un índice multicriterio para la detección de Lavado de Activos.

FUENTESELECTRÓNICAS

Artículos estadísticos. http://www.estadistico.com/arts.html. Consul-tado el 14 de agosto de 2014.

Cárdenas Rojas, Liliam (2010). Aná-lisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Ofi-cina de Naciones Unidas contra la droga y el delito, Cámara de Co-mercio de Bogotá, Embajada Bri-tánica.http://incp.org.co/Site/info/archi-vos/bancolombia.pdf. Consultado el 14 de agosto de 2014.

Pérez López, Cesar y Santín Gonzá-lez, Daniel (2007). Minería de datos: conceptos, técnicas y sistemas.https ://www.google .com.co/search?hl=es&tbo=p&tbm=bks&-

q=isbn:8497324927. Consultado el 14 de agosto de 2014.

Cruz Arrela, Liliana (2010). Minería de datos con aplicaciones. Univer-sidad Nacional Autónoma de Méxi-co.

http://132.248.9.195/ptd2010/abril/0656187/0656187_A1.pdf. Consultado el 14 de agosto de 2014.

Page 35: TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y ... · ducción, parcial o total, del con-tenido de este documento sin la autorización previa y escrita de la UIAF. Los análisis

Bogotá D.C.2014

TÉCNICAS DE MINERÍADE DATOS PARA LA

DETECCIÓN Y PREVENCIÓNDEL LAVADO DE ACTIVOS

Y LA FINANCIACIÓNDEL TERRORISMO (LA/FT)

DOCUMENTOS UIAF