modelo predictivo para la gestión de activos y análisis de ... · • minería de datos:...
Post on 24-Aug-2020
7 Views
Preview:
TRANSCRIPT
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
1
Modelo Predictivo para la Gestión de Activos y Análisis de Inversiones
para Entidades Financieras, mediante Minería de Datos
Lilian Narcisa Salazar Vasquez Escandinavia 110, Las Condes, Santiago. Región Metropolitana
lilian.salazar@sansano.usm.cl
Resumen: El presente trabajo tiene como objetivo describir la implementación de un modelo predictivo
mediante minería de datos, para abordar un problema central de las instituciones financieras en Chile: la
gestión de activos y el análisis de inversiones. Actualmente existe una gran cantidad de información
confiable y periódica generada por instituciones como el Banco Central de Chile (BCCh), la Tesorería
General de la República (TGR) y el mercado financiero. Al aplicar técnicas de minería de datos el interés es
hacer un análisis técnico de estas variables económicas y financieras. Modelar y predecir valores y/o
movimientos de indicadores del mercado financiero entrega una herramienta señalizadora de riesgo y
expectativas futuras. Una vez construidos los modelos se evaluará su capacidad predictiva para ver, si el
rendimiento resulta óptimo y la configuración de los escenarios es útil para entender la mecánica de la
economía chilena, sirviendo de punto de partida para la proyección de otras variables económico-
financieras.
El presente trabajo considera utilizar la metodología CRISP-DM para la gestión del proyecto y técnicas
predictivas para la construcción del modelo.
Palabras Clave: Gestión de Activos, Minería de Datos, CRISP-DM, Mercado de Valores, Predictivo.
1 Introducción
La Gestión de Activos en el sector financiero es una actividad que consiste en la gestión responsable del
capital para alcanzar los mayores beneficios [1].La elección de cartera es un problema crítico de los bancos en
un entorno competitivo; responder rápidamente cómo se debe distribuir el capital en una operación o
transacción, considerando que cada activo es único y ofrece sus propias perspectivas, conlleva un alto riesgo.
El Trading (en español, negociación bursátil) consiste en el estudio de los mercados mediante el análisis
técnico y el fundamental para invertir en diferentes instrumentos financieros, con el objetivo de obtener un
beneficio [2]. Las reglas del Trading considera dos aspectos fundamentales para la selección que puede
resumirse en un retorno esperado y un aspecto de riesgo; el primero cuantifica cuál sería el ingreso o precio
probable de un activo durante un período de tiempo determinado; el segundo mide cuán inciertos pueden ser
estos beneficios. Igual de importante es cómo se combinan los riesgos individuales a nivel de la cartera, el
riesgo de cartera puede ser menor que la suma de los riesgos de los activos individuales que lo constituyen [3].
Actualmente, en Chile existe y se genera, periódicamente, una gran cantidad de información económica
financiera publicada principalmente por el Banco Central de Chile (BCCh), la Tesorería General de la
República (TGR), la Superintendencia de Banco e Instituciones Financieras (SBIF, actual CMF), el Instituto
Nacional de Estadísticas (INE) y el mercado secundario, que corresponde a cifras de la actividad industrial,
mercado laboral, estadísticas monetarias y financieras. Todos estos datos son confiables y, en general,
públicos, suficientes para alimentar modelos intensivos en el uso de datos. El poder modelar para predecir
valores y comportamientos de variables del mercado entrega una herramienta señalizadora de riesgo y
expectativas futuras. Los estudios se orientan hacia la proyección del valor exacto, enfocándose en reducir los
errores con respecto del valor real con costes en el pronóstico correcto de la dirección del movimiento [4]. En
general, cuando se utilizan modelos para invertir al utilizar un escenario probable más que el valor exacto de
la variable proyectada interesa si esta subirá o bajará, y si se espera que este movimiento sea importante.
La mayor cantidad de operaciones, de montos considerables que transa el banco, pertenece al mercado chileno
de renta fija, es de relevancia poder proyectar la tasa de interés entendiendo la dinámica de las variables
económicas y financieras que la explican. Utilizando técnicas predictivas y descriptivas de clasificación se
ejecutarán análisis estadísticos y de segmentación sobre los datos para tratar de explicar la relación causal
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
2
entre variables relevantes del mercado chileno y los tres posibles escenarios económicos (Crisis,
Debilitamiento, Fortalecimiento) que en una segunda etapa, permitan discriminar los datos para generar los
árboles de decisión sobre cada uno de los escenarios. Esta técnica se adapta al requerimiento pues se
caracteriza por jerarquizar las variables independientes en base al poder explicativo de la variable objetivo,
describe el camino que sigue la variable mostrando su interacción hasta llegar resultado al final.
El desarrollo de un modelo predictivo y su capacidad se fundamenta en:
• Técnica de minería de datos
• Preparación y transformación de las variables de entrada
• Cantidad de información
• Conjuntos de datos utilizados para el entrenamiento y comprobación
• Comprensión del resultado final
• Evaluación del rendimiento del modelo
Además de los puntos mencionados, este trabajo podría demostrar la relación existente entre las variables
económicas y financieras de Chile, los mercados internacionales y su cambiante interacción dependiendo del
contexto económico por el cual atraviesa el país. Resulta, entonces, primordial una herramienta predictiva que
exponga en detalle las variables que está utilizando, el peso en la estimación y si en sus diferentes niveles
cambia la correlación entre las variables.
Un modelo predictivo aprende con precisión los patrones pertenecientes al mercado en periodos de tiempo,
este aprendizaje automático es valioso en la evaluación de inversiones y toma de decisiones para la correcta
gestión de los activos.
2. Hipótesis y Objetivos
2.1 Hipótesis
Un Modelo Predictivo fundamentado en escenarios económicos y arboles de decisión C5.0 permitirán
estimar el movimiento y/o valor de un indicador financiero, como la tasa de interés fija a 5 años,
considerando las principales variables económicas y financieras del mercado chileno, con un rendimiento
igual o superior al 70%.
2.2. Objetivos Específicos
Los siguientes son los objetivos específicos considerados en el desarrollo del presente trabajo:
• Utilizando análisis de conglomerados y árboles de decisión como métodos de segmentación
demostrar la cambiante interacción entre las variables económicas y financieras de Chile, los
mercados internacionales y el contexto económico por el cual atraviesa el país.
• Mostrar con detalle qué variables financieras y económicas se utilizan para pronosticar la tasa fija a 5
años, y si en sus diferentes niveles cambian la relación entre las variables, cuales pasan a ser
relevantes en la estimación.
• Generar un modelo predictivo para la estimación de la tasa fija a 5 años en Chile, fundamentado en
la creación de escenarios económicos, y en la interacción de variables económicas y financieras en el
tiempo.
• Evaluar el rendimiento de los árboles de decisión C5.0 como una efectiva herramienta predictiva de
índices económicos o financieros, que entregará material confiable para el análisis de inversiones y
gestión de activos.
2.3 Metodología para validar la Hipótesis
La propuesta es construir un modelo predictivo utilizando análisis de conglomerados y árboles de decisión;
se trabajará sobre datos históricos donde se tiene un resultado conocido, es decir, se modelará sobre datos de
entrenamiento y se validará sobre datos de prueba.
Los algoritmos a usar generan reglas de decisión donde los datos son sucesivamente divididos en nodos
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
3
intermedios hasta obtener segmentos de similar comportamiento respecto de la variable objetivo, las hojas
contienen la predicción [5].Los árboles resultantes podrán ser traducidos en un conjunto de reglas que se basa
en umbrales, los cuales entregan información sobre el punto en que una variable comienza a relacionarse de
manera diferente con otras variables.
Se seleccionan las principales variables económicas y financieras que afectan el movimiento y el valor de la
tasa de interés, incluyendo variables locales y externas ya definidas por el negocio. Se explica su importancia
dentro del modelo y se realiza el análisis descriptivo para determinar la correlación entre las variables
incluidas. Los resultados serán validados y utilizados por usuarios expertos del dominio, de manera de
determinar si son pertinentes al negocio.
3. Marco Teórico
3.1 Metodologías para Proyectos de Minería de Datos
Algunas de las principales metodologías para la gestión de proyectos de minería de datos son KDD, SEMMA,
CRISP-DM y Catalyst. SEMMA y CRISP-DM se consideran las más populares; no son un método científico
sino más bien una técnica entregada por la industria que se presenta en muchas de las publicaciones y se
utilizan bastante en la práctica [6].
El proceso CRISP-DM (Cross Industry Standard Process for Data Mining), depende del conocimiento del
negocio que el usuario posea, de manera de poder definir una hipótesis inicial. El proceso es iterativo y se
resume en una serie de pasos bien definidos [7] que se visualizan en la figura1 y descritos líneas abajo.
Figura 1: Proceso de Minería de Datos CRISP-DM
• Comprensión del negocio: se enfoca en entender los objetivos del proyecto y los requisitos desde una
perspectiva empresarial, y luego convertir este conocimiento en la definición de un problema de minería
de datos. Se identifican los objetivos y definen variables relevantes.
• Comprensión de los datos: se estudian los datos disponibles y se realizan actividades para familiarizarse
con ellos, para identificar problemas de calidad, descubrir las primeras ideas sobre los datos o detectar
subconjuntos interesantes para formular hipótesis para información oculta.
• Preparación de los datos: cubre todas las actividades para construir el conjunto de datos final a partir de
los datos brutos iniciales. En general, se aplican estadísticos que los describan, se determina su calidad, y
finalmente, se los transforma y limpia para usarlos como variables de entrada en los modelos de la etapa
siguiente.
• Modelado: se seleccionan y aplican distintos modelos sobre los datos, se calibran sus parámetros a
valores óptimos; generalmente es necesario volver a la etapa anterior para perfeccionar la data de entrada.
• Evaluación: se someten a evaluación el modelo (o modelos) estudiando los pasos que llevaron a sus
resultados, verificando si éstos cumplen los objetivos del negocio intentando identificar si hay factores de
importancia que no fueron considerados en el modelo. En esta etapa ya es posible definir si es posible
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
4
utilizar la información generada por el modelo para tomar decisiones sobre la problemática abordada.
• Distribución: la creación del modelo generalmente no es el final del proyecto, incluso si el propósito del
modelo es aumentar el conocimiento de los datos, el conocimiento adquirido debe ser organizado y
presentado de forma que el cliente pueda utilizarlo.
Por otro lado, existe KDD (Knowledge Discovery in Databases) es un proceso iterativo e interactivo.
Iterativo, la salida de alguna de las fases puede retroceder a pasos anteriores. Es interactivo, generalmente un
experto en el dominio del problema debe ayudar a la preparación de los datos y validación del conocimiento
extraído. El proceso de KDD consta de las siguientes cinco fases [8]:
• Selección: crea un conjunto de datos objetivo y se focaliza en un subconjunto de variables o muestras de
datos en las cuales se realizará el descubrimiento.
• Pre procesamiento: limpieza de datos objetivo y pre procesamiento para obtener datos consistentes.
• Transformación: de los datos utilizando métodos de reducción o transformación.
• Minería de datos: búsqueda de patrones de interés en una determinada forma de representación,
dependiendo del objetivo de minería de datos (generalmente, predicción).
• Interpretación y Evaluación: consiste en la interpretación y evaluación de los datos para obtener el
conocimiento.
Metodología SEMMA (Sample, Explore, Modify, Model, Assess), se usa para ejecutar un proyecto de minería
de datos, desarrollado por el instituto SAS, el cual considera un ciclo con 5 etapas [6]:
• Muestreo: toma una muestra del conjunto de datos, la cual debe ser lo suficientemente grande como para
contener información relevante, y lo suficientemente pequeña para correr el proceso en forma rápida.
• Exploración: busca relaciones y tendencias desconocidas en estos.
• Modificación: se realiza limpieza de los valores anómalos, se completan datos faltantes; se crean y
modifican las variables que se trabajarán.
• Modelado: aplica diferentes técnicas de modelado sobre las variables de forma de obtener modelos que
den respuesta a los objetivos establecidos por el proceso de minería.
• Evaluación: en ésta última etapa, se evalúan los resultados del modelado, su utilidad y exactitud.
A modo de resumen, la tabla 1 muestra la correspondencia de las etapas entre CRISP-DM, KDD y SEMMA.
CRISP-DM KDD SEMMA
Compresión del Negocio Pre KDD -----------
Compresión de Datos Selección Muestreo
Pre procesamiento Exploración
Preparación de datos Transformación Modificación
Modelado Minería de Datos Modelado
Evaluación Interpretación - Evaluación Evaluación
Distribución Post KDD --------
Tabla 1: Correspondencias de las etapas entre KDD, SEMMA y CRISP-DM [6]
3.2 Minería de Datos
3.2.1 Técnicas Predictivas
Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento teórico previo. El
modelo propuesto para los datos debe contrastarse después del proceso de minería de datos, antes de aceptarlo
como válido. Formalmente, la aplicación de todo modelo deben pasar por las fases de [9]:
• Identificación objetiva: se aplican reglas que permitan identificar el mejor modelo posible que ajuste
los datos.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
5
• Diagnóstico: proceso de contraste de la validez del modelo estimado.
• Predicción: proceso de utilización del modelo identificado, estimado y validado para predecir valores
futuros de las variables dependientes.
En algunos casos, el modelo se obtiene como mezcla del conocimiento obtenido antes y después de la
minería de datos. Tanto los árboles de decisión, como las redes neuronales artificiales (RNA) y el análisis
discriminante son técnicas de clasificación que pueden extraer patrones de comportamiento o clase,
siendo el objetivo construir un modelo que permita clasificar cualquier nuevo dato.
Una categorización de las técnicas es la siguiente:
• Clasificación: se utiliza para predecir una o más variables discretas basándose en distintos atributos de los
datos, es decir, busca predecir si algo va a suceder dada una serie de otros factores. Las técnicas de
clasificación suelen pertenecer al grupo de técnicas predictivas, denominas ad hoc ya que clasifican
dentro de grupos previamente definidos [9].
• Regresión: es similar a la técnica de clasificación pero cambia el tipo de variable dependiente; aquí se
predice una variable de tipo continua. Los algoritmos de regresión son capaces de determinar qué
variables de entrada son relevantes en la predicción; estas variables descriptivas pueden ser continuas,
discretas o categóricas, y una posible combinación de estas va a simular el resultado de la variable
explicada.
• Pronósticos: encuentran secuencias típicas de sucesos de datos, es decir encuentran patrones sobre una
lista de objetos, importando su orden. Algunos ejemplos son las series financieras, económicas como:
tasas de desempleo, tasa de inflación, índice de precios.
3.2.2 Algoritmos para árboles de decisión
Un árbol de decisión es una división jerárquica y secuencial del problema en el que cada nodo describe las
posibles decisiones y por lo tanto los resultados de las distintas combinaciones de decisiones y eventos. Se
construye un árbol desde un conjunto fijo de elementos; el árbol generado se usa para clasificar futuros
elementos; cada elemento tiene varios atributos que pertenecen a una predicción. En cada división se
selecciona al predictor que mejor separa a la clase con respecto a la variable objetivo, los nodos hoja del árbol
contienen el nombre de la predicción, mientras que los nodos no-hoja son de decisión. Si la variable objetivo
es categórica se llaman árboles de clasificación, en cambio, si es continua se llaman árboles de regresión [5].
Son métodos muy flexibles pueden manejar una gran numero de variables y complicadas interacciones entre
ellas; los resultados son fácilmente interpretables por cualquier persona.
Los algoritmos más conocidos son: CART [Breiman et al. 1984], CHAID [Kass 1980] son más utilizados en
estudios de marketing, sin embargo, tiene importantes limitaciones ya que pueden no capturar todas las
interacciones entre las variables predictoras y la objetivo. Hay propuestas en la literatura que superan estas
limitaciones: DAVILA [Ávila 1996], DDORADO [Dorado 1998] y TAID [Castro 2005], cuyo uso no se ha
extendido por la falta de un software específico. Además, hay otros algoritmos como QUEST [Loh & Shih
1997] e ID3 [Quinlan 1993], utilizado dentro de la inteligencia artificial y que dio lugar más tarde a los
algoritmos C4.5 y su sucesor C5.0, todos estos mucho menos conocidos en el contexto del análisis estadístico
de datos [5].
Los diversos algoritmos se diferencian por razones como: naturaleza de los datos a clasificar, número de
ramas que pueden dividir, criterios utilizados para la división, administración de los valores faltantes y
métodos de poda (simplificación del árbol) [5]. Algunos de ellos son:
a) C4.5: maneja valores continuos y discretos; crea un umbral para después dividir el atributo entre
aquellos objetos que están sobre y bajo el umbral. Tiene la capacidad de manejar valores de atributos
faltantes; en el caso de un atributo faltante usa una ponderación de valores y probabilidades en lugar de
valores cercanos o comunes. El algoritmo usa la clasificación más probable calculada como la suma de
los pesos de las frecuencias de los atributos. Construye un gran árbol y lo concluye con una poda de las
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
6
ramas para simplificarlo, a fin de generar resultados más fáciles de entender y hacerlo menos
dependiente de los datos de prueba. Se basa en la medida alternativa ratio de ganancia[10].
Para definirla, sea A un atributo continuo y𝑆 = { 𝑠1 , 𝑠2, … , 𝑠𝑛 } el conjunto de elementos a particionar, se
asume que el conjunto S esta ordenado de tal forma que 𝑠𝑖 ≤ 𝑠𝑖+1 , para todo i ∈ { 1,2, … , 𝑛 − 1}.
Los umbrales potenciales del conjunto se calculan en base a la fórmula 3.
𝑡𝑖 =𝑠𝑖+ 𝑠𝑖+1
2 , i = 1,2,…,n-1(3)
Seleccionando aquel con el que se obtenga el mayor ratio de ganancia, Fayyad e Irani [11] probaron
que solo es necesario considerar en los que se produzca un cambio en el valor de la variable clase. Limitaciones del algoritmo C4.5: presencia de ramas vacías, ramas poco significativas y sobre ajuste
(Over fitting).
b) C5.0: corresponde a una evolución del C4.5. Las mayores ventajas de esta versión tienen que ver con la
eficiencia en el tiempo de construcción de árbol, el uso de memoria y la obtención de árboles
considerablemente más pequeños con la misma capacidad predictiva. Adicionalmente, tiene la opción de
ponderar algunos atributos de manera de enfocar la construcción del árbol, y se puede utilizar un
aprendizaje penalizado en que es posible asignar un costo a los posibles resultados o matriz de resultados
(Cost Sensitive Algorithm) [10].
3.2.3 Evaluación del rendimiento
La evaluación del rendimiento de una técnica de minería de datos es fundamental para construir, implementar
y utilizar modelos de clasificación. Los tópicos principales comprenden [11]:
• Métodos para la evaluación del rendimiento: ¿Cómo obtener una estimación fiable del rendimiento?
• Métricas para la evaluación del rendimiento: ¿Cómo evaluar el rendimiento de un modelo?
• Métodos para la comparación de modelos: ¿Cómo comparar el rendimiento entre los modelos
competidores?
Métodos para la evaluación del rendimiento
Distintas métricas se han propuesto para la evaluación del rendimiento algunas de las cuales son:
• Validación cruzada: es una técnica para estimar el rendimiento de generalización de un modelo
predictivo, el conjunto de entrenamiento se va a dividir en k subconjuntos al momento de realizar el
entrenamiento, se toma cada k subconjunto como conjunto de prueba del modelo, mientras que el resto
de los datos se tomará como conjunto de entrenamiento. Este proceso se repetirá k veces, y en cada
iteración se seleccionará un conjunto de prueba diferente, mientras los datos restantes se emplearán,
como se mencionó, como conjunto de entrenamiento.
Una vez finalizadas las iteraciones, se calcula la precisión y el error para cada uno de los modelos
producidos, para obtener la precisión y el error final se calcula el promedio de los k modelos entrenados.
Con los valores calculados de precisión promedio para un modelo, se puede repetir entonces el
procedimiento para todos los demás modelos de clasificación que se estén evaluando, y se seleccionará
al final aquel que produzca el mejor valor de precisión y menor error promedio.
Finalmente, puede utilizarse dicho modelo sobre el conjunto de validación generado en la primera parte,
se asume que este modelo es el que mejor resultado ofreció durante la fase de entrenamiento [14].
• Matriz de confusión: también conocida como tabla de contingencia, clasifica cada instancia en una de
dos clases, una clase verdadera y una falsa. Esto da lugar a cuatro clasificaciones posibles para cada
instancia. La matriz de confusión yuxtapone las clasificaciones observadas para un fenómeno
(columnas) con las clasificaciones predichas de un modelo (filas).
Algunas métricas de desempeño derivadas de la matriz de confusión son sensibles a anomalías de datos
tales como sesgo de clase.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
7
Figura 2: Matriz de confusión
• Exactitud (accuracy): una serie de métricas de evaluación del rendimiento se pueden derivar de la
matriz de confusión. La métrica más común es accuracy definida por la fórmula:
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑉𝑃+𝑉𝑁
𝑉𝑃+𝑉𝑁+𝐹𝑃+𝐹𝑁(6)
Otras métricas de rendimiento incluyen precision y recall definidas de la siguiente manera:
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑉𝑃
𝑉𝑃+𝐹𝑃(7)
𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑉𝑃
𝑉𝑃+𝐹𝑁 (8)
• Curvas ROC (Receiver Operating Curves): las curvas ROC son gráficos bidimensionales que
representan visualmente el rendimiento y la compensación de rendimiento de un modelo de
clasificación.
Se construyen trazando la tasa de verdaderos positivos contra la tasa de falsos positivos, como se
ejemplifica en la figura 3a. Se pueden identificar varias regiones de interés en un gráfico ROC, la
línea diagonal desde la esquina inferior izquierda hasta la esquina superior derecha denota el
rendimiento del clasificador aleatorio, es decir, un modelo de clasificación asignado en esta línea
produce tantas respuestas falsas positivas como respuestas verdaderas positivas.
a)
b)
c)
Figura 3: a) Regiones de un gráfico ROC y Clasificador casi perfecto b) Clasificador razonable
c) Clasificador deficiente.
VERDADERO FALSO
VERDADERO
Verdadero
Positivo
(VP)
Falso
Positivo
(FP)
FALSO
Falso
Negativo
(FN)
Verdadero
Negativo
(VN)
Observado
Proyectado
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
8
• Sharpe ratio; conocido como el índice recompensa-variabilidad (reward-to-variability) es una
medida del exceso de rendimiento por unidad de riesgo de una inversión. La fórmula se define como:
𝑆 =𝐸[𝑅−𝑅𝑓
𝜎(9)
Donde, R es el rendimiento de la inversión en cuestión; 𝑅𝑓es el rendimiento de una inversión de
referencia, como por ejemplo la tasa de interés libre de riesgo; 𝐸[𝑅 − 𝑅𝑓] es el valor esperado del
exceso de rendimiento de inversión comparado con el retorno de la inversión de referencia.
𝜎 = √𝑉𝑎𝑟[𝑅 − 𝑅𝑓](10)
𝜎 es la desviación estándar (volatilidad) del exceso de rendimiento de la inversión. Nótese que,
debido a que𝑅𝑓es el rendimiento libre de riesgo, entonces su volatilidad es constante a lo largo del
periodo, por lo que se concluye que Sharpe ratio se utiliza para mostrar hasta qué punto el
rendimiento de una inversión compensa al inversor por asumir riesgo en su inversión. Cuando se
comparan dos inversiones, cada una con un determinado rendimiento esperado E [R] contra el
rendimiento del activo de referencia 𝑅𝑓, la inversión con ratio más alto proporciona mayor
rendimiento para un mismo nivel de riesgo. Los inversionistas suelen inclinarse por inversiones que
tengan una Sharpe ratio alto [15]. Su fórmula:
√𝑉𝑎𝑟[𝑅 − 𝑅𝑓] = √𝑉𝑎𝑟 [𝑅](11)
El Sharpe ratio se utiliza con frecuencia para medir el comportamiento de los activos de una cartera
o para comparar la eficacia de distintos gestores de fondos de inversión u otros activos [15].
3.2.4 Técnicas Descriptivas - Análisis de Conglomerados como método de segmentación
El análisis de conglomerados o clúster es un conjunto de métodos y técnicas estadísticas, que permiten
describir y reconocer diferentes agrupaciones que subyacen en un conjunto de datos, también se usan para
clasificar o dividir en grupos más o menos homogéneos un conjunto de individuos que están definidos por
diferentes variables. El objetivo principal es conseguir una o más particiones de un conjunto de individuos en
base a determinadas características que estarán definidas por las puntuaciones que cada uno de ellos tiene con
relación a diferentes variables. El análisis de conglomerados es el ejemplo paradigmático del enfoque de
segmentación post hoc, es el análisis y no el analista el que extrae los grupos de elementos y sus
características definitorias; número de segmentos, número de integrantes de cada segmento, etc.
El método para ejecutar un análisis de conglomerados comienza con la selección de los elementos de estudio;
si corresponde se incluye [19]:
• su codificación a partir de las variables o caracteres que los definen.
• su transformación adecuada para someterlos al análisis si es necesario (tipificación de variables,
desviaciones respecto de la media, etc.).
• se determina la matriz de disimilitudes definiendo las distancias, similitudes o disimilitudes de los
individuos.
• se ejecuta el algoritmo que formará las diferentes agrupaciones o conglomerados de individuos.
• se obtiene una representación gráfica de los conglomerados obtenidos, Dendograma.
• se interpretan los resultados obtenidos.
3.2.4.1 Algoritmos de análisis de conglomerados
Los diferentes métodos de análisis de conglomerados surgen de las distintas formas de agrupación
dependiendo del algoritmo [19].
• Aglomerativos - Divisivos
• Jerárquicos - No Jerárquicos
• Solapados - Exclusivos
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
9
• Secuenciales - Simultáneos
• Monotéticos - Politéticos
• Directos - Iterativos
• Ponderados - No Ponderados
• Adaptativos- No Adaptativos
Algoritmo bietápico: tiene características únicas respecto a otros métodos de segmentación; determina
automáticamente el número óptimo grupos, crea el modelo con datos categóricos y continuos asumiendo que
las variables son independientes, construye un árbol de características de conglomerados que resume los
registros.
4 Estado del Arte
Es posible encontrar trabajos de minería de datos aplicados a finanzas, sin embargo, los temas abordados son
más limitados y se pueden resumir de la siguiente manera:
• Detección de fraudes: dentro de las técnicas de minería de datos que pueden ser de gran ayuda a la
detección de fraude, están:
a) Detección de anomalías (outlier): esta técnica es de valioso aporte para el desarrollo de sistemas en
la detección de fraude; en los últimos años se han diseñado varios métodos, entre los autores más
destacados se encuentran[16]:
• Zengyou He, quien desarrolló dos métodos: el primero es un algoritmo de tipo greedy que
pretende resolver problemas de optimización en la detección de outlier de datos categóricos [17].
El segundo método presentado por este autor, hace referencia al problema de detección de outlier
de clases y su aplicación en CRM (Customer RelationshipManagement), para lo cual introduce
dos tipos de clases de outlier: local class outlier y reference class outlier.
• Tianming Hu [20] aborda el tema de la detección de outlier, a partir de la identificación de
patrones obtenidos por de técnicas de clustering.
• C. Caroni y P. Prescott [21] hacen uso del método de O’Rohlf, que examina la distancias entre
puntos en un espacio vectorial para construir un MTS (Minimun Spanning Tree) usando la
medida de distancia más apropiada.
• Fernández Pierna J. A. [22] realiza un compendio de las principales técnicas utilizadas para la
detección de outliers.
b) Análisis de Cluster: son muy variadas las técnicas empleadas en el agrupamiento, se cita el estudio
realizado por Atkinson A. C. (2007), el cual se basa en un procedimiento robusto conocido como la
distancia de Mahalanobis, que permite identificar cluster en datos normales multivariados[23].
• Predicción del mercado de divisas: los trabajos encontrados están enfocados a estimaciones de corto
plazo. En el trabajo de Garg A. [24], el autor utiliza una mezcla de técnicas de minería de datos como los
bosques aleatorios y los árboles de regresión, junto a modelos econométricos GARCH, para modelar los
cambios en la volatilidad de los valores de las divisas. Los resultados muestran una capacidad de
predicción limitada pero superior a un proceso autorregresivo, especialmente para horizontes más largos.
En el trabajo de Peramunetilleke D., y Wong R. K. [25] los autores realizan la estimación utilizando
técnicas de text mining, capturando los encabezados de las noticias en tiempo real, evaluando su impacto y
prediciendo el movimiento intra-día de la paridad, a diferencia del resto de los estudios, aquí no sólo se
estudian los efectos sobre la paridad sino que también los posibles significados de este movimiento. Este
estudio reporta un rendimiento superior a un camino aleatorio e incluso mejor que RNA [26].
• Administración de Portafolios: la teoría moderna de portafolio intenta maximizar el retorno y minimizar
el riesgo de una cartera Markowitz, Harry M. [27]. Junto a los modelos de valoración de activos como el
modelo de valoración de activos financieros CAPM (Capital Asset Pricing Model) o la teoría de fijación
de precios de activosAPT (Arbitrage Pricing Theory) son la base para la optimización de un portafolio de
inversión. En estos años se han incorporado técnicas de minería de datos a este proceso de optimización,
como el trabajo de Iu, K. C. y Xu L. [28] donde aplican una optimización dinámica de portafolio, es decir
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
10
que toma los últimos precios del mercado para calcular los pesos óptimos dentro del portafolio. La técnica
utilizada en este trabajo es llamada Temporal Factor Analysis (TFA) que consiste una forma alternativa de
implementar APT considerando factores escondidos que afectan al portafolio y por tanto a los pesos de los
activos, sobre la base de ya no optimizar la frontera eficiente en términos de la media y varianza si no
optimizando el Sharpe Ratio. Otro trabajo es el de Chapados [15] donde se muestra la transformación del
problema Markoviano de optimización de portafolios en un proceso de aprendizaje supervisado a través
del algoritmo de búsqueda K-path y RNA (Redes Neuronales Artificiales) optimizando también el Sharpe
Ratio.
• Predicción del mercado accionario: en general las técnicas de regresión utilizadas en este tipo de
problemas estaban limitadas a la captura de relaciones lineales entre las variables seleccionadas. En el
trabajo de Soni S. [29] se realiza una extensa revisión de las técnicas para la predicción de mercados
accionarios concluyendo que la técnica predominante son las RNA (Redes Neuronales Artificiales); estas
son capaces de encontrar la relación entre la variable dependiente y la independiente, incluso si estas son
altamente complejas gracias a la utilización de funciones de aproximación. Otra razón que esgrime el
autor es que las RNA tienen la capacidad de generalización; después del entrenamiento las neuronas
tienen la capacidad de identificar nuevos patrones incluso si estuvieron ausentes en los datos de
entrenamiento, lo que las hace una buena herramienta predictiva.
El trabajo de Enke D. y Thawornwong S. [30] predice el signo del movimiento del índice S&P 500 con
RNA, para esto utilizaron variables económicas y financieras como los dividendos por acción de cada mes
para el S&P, el índice de inflación, el índice de producción industrial y la cantidad de dinero en la
economía, por nombrar algunas de las 31 variables utilizadas en un periodo de tiempo que va desde enero
de 1976 hasta diciembre de 1999. De las variables iniciales sólo quedaron 15 seleccionadas como entradas
a los modelos de RNA. Una de las conclusiones importantes de este trabajo es que la mayoría de las
proyecciones financieras consisten en estimar de manera exacta el precio de un activo, los autores sugieren
que la unión de una estrategia de compra y venta guiada por una estimación de la dirección del cambio en
el precio puede ser más efectivo y rentable, menciona una serie de estudios que lo avalan como los de
Aggarwal and Demaskey [31], Maberly [32] y, Wu yZhang [33].
Trabajos similares sobre la proyección de la tasa de interés con herramientas de minería de datos
realizados son: Alemania Zimmermann [11], Reino Unido Jacovides [26] revelan que el requerimiento se
solventa aplicando técnicas de minería de datos y en general son exitosos, aunque no obtienen un
rendimiento excepcional. El mercado chileno se ha desarrollado enormemente en los últimos años, tiene
una buena regulación, presencia activa de grandes participantes e instituciones sólidas. Sin embargo, son
pocos los trabajos realizados sobre estimación de tasas con herramientas de minería de datos; Vela [38] y,
Muñoz y Moreno [39] realizaron trabajos basados en modelos econométricos.
• Red Neuronal Financiera: es un modelo cuyo criterio de entrenamiento es optimizar el sharpe ratio, su
arquitectura se puede ver como una generalización directa del modelo de probabilidades proporcionales y
como un perceptrón multicapa, con una capa de salida compuesta por un número de clasificadores con una
parametrización. Obtiene una clasificación de tres vías para cada activo en la cartera (largo / neutral /
corto), este modelo considera más adecuadamente un modelo de negociación en lugar de un modelo de
asignación, ya que no genera un vector de ponderaciones de cartera sino decisiones comerciales
inmediatas. Proyecto colaborativo de GitHub iniciado en 2018 y aun en desarrollo liderado por Analytics
Vidhya [34] se ha usado dos modelos de redes neuronales: el perceptrón multicapa (MLP) y el modelo a
corto plazo (LSTM) de Jakob Aungiers [35]. El Department of Decision Sciences, London Business School
[36] aportó una metodología con procedimientos rigurosos para la identificación del modelo, la selección
y las pruebas de adecuación del modelo neural que han comenzado a aparecer en la literatura. Demostró su
aplicabilidad en el problema no trivial de pronosticar cambios por la volatilidad implícita; cada paso del
proceso de construcción del modelo se valida mediante pruebas estadísticas para verificar la importancia
variable y la adecuación del modelo con los resultados que confirman la presencia de relaciones no
lineales en los cambios por la volatilidad implícita.
5 Desarrollo del Modelo Predictivo aplicando CRISP-DM
Este capítulo detalla la metodología y supuestos utilizados en este trabajo, incluyendo una descripción del
funcionamiento del banco, el mercado de renta fija libre de riesgo Chileno y sus instrumentos financieros.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
11
Continúa con el desarrollo del modelo utilizando las técnicas ya descritas en los capítulos anteriores, así como
la evaluación de rendimiento e implementación del modelo.
5.1 Comprensión del negocio
La Mesa de Dinero del banco necesita una herramienta que permita estimar el signo del movimiento y los
valores de índices, indicadores o tasas con el objetivo de generar operaciones Swap, Forward y Spot de
formas beneficiosa y rápida, es decir sin afectar la solvencia financiera de la empresa y a los demandantes de
dinero.Dichas operaciones o contratos se definen como [40]:
• Swap: instrumento financiero en la que dos contrapartes se intercambian flujos en fechas determinadas,
donde uno paga una tasa fija y conocida al comienzo del contrato, y otro paga una tasa variable conocida
al momento del flujo. Su función consiste principalmente en la trasformación de un pasivo o inversión de
renta fija a variable y viceversa.
• Forward: se emplea para definir un contrato a futuro, en el cual se determina un valor de compra venta de
un activo, una divisa o un valor establecido en el momento en el que se efectúa el contrato. Éste será
pagado en una fecha futura en la cual se hará entrega de la totalidad del activo.
• Spot: contrato de compra y venta de una divisa, de una materia prima, de una acción en particular o de
algún tipo de elemento financiero para su respectivo pago y entrega posterior en la fecha estipulada, la
cual generalmente es de dos días hábiles luego de haberse realizado la transacción.
La justificación del requerimiento es la desviación de los modelos estadísticos lineales utilizados para estimar
la tasa; la minería de datos se muestra como una alternativa para solucionar este problema. La importancia de
poder predecir las tasas de interés radica en su uso como herramienta señalizadora de riesgo y expectativas
futuras (gestión de activos). En general, al utilizar un modelo predictivo para invertir (análisis de inversiones)
más que el valor exacto de la variable proyectada, interesa si subirá o bajará y, si se espera que ese
movimiento sea importante. Otros requerimientos complementarios del usuario son: identificar las variables
más relevantes, visualizar la interacción entre las variables en sus diferentes contextos, y determinar las
variables que afectan a la estimación del valor y las que influyen la tendencia o movimiento.
5.2 Comprensión de los datos
En Chile los principales proveedores de datos económicos y financieros son el Banco Central de Chile BCCh,
la Tesorería General de la República (TGR), la Superintendencia de Banco e Instituciones Financieras (SBIF),
el Instituto Nacional de Estadísticas (INE) y el mercado secundario, entregan información de la actividad
industrial, mercado laboral, estadísticas monetarias y financieras que son publicadas con frecuencia diaria o
mensual.
5.2.1 Descripción de variables
Para pronosticar el valor o el movimiento de un indicador financiero se requiere del análisis de componentes
principales en el cual las variables son factores y dependen de lo estables que sean en el tiempo; estas pueden
tener una relación directa o indirecta con la proyección. Las variables definidas en este trabajo fueron
seleccionadas por su relación teórica con la variable objetivo y sirven como entrada al modelo.
Se describen las variables y se fundamenta su relevancia en la proyección de la tasa.
• Colocaciones BCU y BCP en el Mercado Primario: el Banco Central publica anualmente su programa
de emisión de deuda, sin embargo esta puede sufrir modificaciones producto de la coyuntura económica
del momento, estas sorpresas afecta el nivel de tasas reales y nominales [42].
• Colocaciones de bancos en papeles BCCH y TGR: la CMF publica mensualmente estadísticas de la
cantidad invertida por los bancos locales en instrumentos del BCCH y TGR, indica la demanda de papeles
de un actor importante del mercado chileno. La muestra una tendencia en la composición de la cartera de
los bancos respecto de los papeles libres de riesgo [42].
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
12
• Tasa de Política Monetaria (TPM): es la tasa objetivo de la política monetaria y sirve de ancla para todo
el resto de las tasas de interés del mercado local. Para que esta tasa cumpla con su definición, el BCCh
influye sobre la tasa de mercado a la que los bancos se prestan a través de operaciones de mercado abierto.
La TPM es evaluada periódicamente y en sus ajustes son consideradas una serie de variables económicas
relacionadas al objetivo de controlar la inflación, las reuniones de política monetaria generan expectativas
en el mercado y movimientos de los agentes previo al posible cambio que afectara de manera inmediata la
tasa de corto plazo. El Banco Central constantemente entrega una descripción de la coyuntura económica
actual que justifica los posibles cambios de la TPM en sentido y magnitud, por lo que esta variable puede
tener una buena capacidad predictiva[41].
• Índice Selectivo de Precios de Acciones (IPSA): principal índice accionario chileno está compuesto por
las 40 acciones de mayor presencia bursátil ponderadas en base a su capitalización y el número de
acciones. Incluir un índice accionario en la estimación tiene dos justificaciones. La primera, el IPSA
refleja las expectativas económicas a futuro. La segunda, las acciones son un instrumento de inversión
sustituto con respecto a los bonos, es decir los agentes se mueven entre estos tipos de instrumentos para
optimizar sus portafolios y aprovechar oportunidades de mercado [41].
• Indicador Mensual de Actividad Económica (IMACEC): mide la actividad económica del país
capturando la mayoría de las actividades productivas que conforman al cálculo del PIB. Este indicador es
una estimación del PIB en el corto plazo, su evolución permite obtener una buena estimación del ritmo
económico del país y por lo tanto es una de las variables esperadas por los agentes económicos para tomar
decisiones [42].
• Índice de Percepción Económica del BCCh (IPEC): corresponde al índice que captura la percepción
económica a través de una encuesta a sus agentes más importantes [42].
• Unidad de Fomento (UF): es una unidad que se reajusta de acuerdo al Índice de Precios al Consumidor,
de manera simple calcula cuánto varía el costo de una canasta básica, con el fin de capturar el nivel de
precios en la economía.
• Emerging Market Bond Index Chile (EMBI Chile): refleja una estimación del costo de endeudamiento y
percepción de riesgo de un país por parte de los inversionistas. Índice calculado por el banco de inversión
JP Morgan. Chile es uno de 24 países que componen el índice global de países emergentes 2019 [43].
• Tasa del Tesoro de Estados Unidos a 10 Años (T10Y): el nivel de tasas de la principal economía del
mundo está relacionada directamente con la curva de rendimientos en Chile, principalmente porque no
existen mayores restricciones al flujo de capitales de entrada y salida, y porque existe libre flotación
cambiaria. Esta variable puede a ayudar a identificar cambios de tendencia de la variable proyectada [43].
• Precio del petróleo WTI (USD por barril): la cotización de este commodity es fundamental para
configurar una coyuntura económica con énfasis en la sensibilidad de Chile a los eventos externos,
determinando que es relevante para explicar la tasa de interés [43].
• VIX: índice oficialmente llamado Chicago Board Options Exchange Market Volatility Index. En el
momento en que hay alta volatilidad el VIX alcanza un número elevado y se relacionan con caídas del
S&P 500, indicando que en el mercado hay miedo y pesimismo, suele coincidir con mínimos en cuando se
producen fuertes movimientos en los mercados bursátiles y hay alegría y confianza [43].
• Swap Peso-Cámara UF y Peso (SPC-UF y SPC-CLP): su estructura consiste en una tasa swap fija
contra una tasa variable que varía según el promedio de la tasa interbancaria (TIB) sobre el mismo plazo y
nominal. La TIB es calculada por el Banco Central y corresponde al promedio de las tasas de mercado de
un día al cual los bancos se prestan entre sí [42].
• Paridad Peso Dólar (CLP/USD): Chile tiene política de libre flotación cambiaria, la paridad se mueve
libremente, pero el Banco Central se reserva la posibilidad de intervención en situaciones de excepción.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
13
Un tipo de cambio flexible permite que la autoridad pueda tener control sobre la cantidad de dinero y por
ende sobre la tasa de interés [42].
• Precio del cobre (USD por libra, BML): ingreso de la parte más importante de la producción industrial
del país y del gobierno, impacta directamente en la estimación del gasto fiscal. Lo anterior implica que un
precio del cobre alto debiera estar asociado con una economía favorable para Chile y viceversa [43].
Del análisis de los datos, es posible concluir que existen dos grupos de variables,
económicas y financieras. Las variables económicas son aquellas que permiten identificar
un escenario económico para Chile, con frecuencia mensual que están menos dominadas
por la volatilidad proveniente de eventos aislados. En la tabla 2 se puede observar el grupo
de cada variable.
Tabla 2: Clasificación de Variables Económicas y Financieras
5.3 Preparación de los datos
El banco guarda los datos en diferentes formatos (base de datos y archivos), distribuidos en diferentes
sistemas, áreas y usuarios. Este trabajo considera la preparación y conversión de las variables previamente
seleccionadas para su uso como entradas del modelo predictivo.
Un requisito adicional es desarrollar el proceso ETL con el objetivo de recolectar toda la información
histórica disponible y centralizar en un solo origen disponible para la herramienta de minería de datos.
5.3.1 Proceso ETL (Extract/Transform/Load)
A continuación se detalla las actividades realizadas para cada etapa.
• Extracción: utilizando servicios que proveen las instituciones que generan los datos (BCCH, TGR, INE,
Blomberg) se extrae la información histórica como archivos (texto, Excel) o conjunto de datos para ser
cargados en el destino. Los datos históricos de sistemas internos CRM, Suite RealAIS y Fisa, se extraen
con programas SQL ejecutados en la base de datos.
• Transformación: considera la preparación y conversión de los datos previamente seleccionados para su
uso como entrada del modelo predictivo. Algunas consideraciones:
a) La información recolectada incluye una historia 5 años con frecuencia diaria, entre el 01 de enero de
2014 y el 01 de enero de 2019. La mayoría de las variables económicas tiene una frecuencia mensual
por lo que se completó los valores nulos o el resto del mes con el último valor disponible, se le dio el
mismo tratamiento a todas las variables con valores diarios faltantes.
b) Días no hábiles: los datos se repiten para los fines de semana con el último dato hábil, excepto para
la UF que entrega un valor diario.
c) Rezago de las variables financieras: habitualmente estas variables presentan una frecuencia diaria
por lo que cada variable tiene un rezago (atraso) de 1día.
d) Rezago variables económicas: por su complejidad de cálculo y lo agregado de la estadística, lo
habitual es que estas variables si bien cuentan con una frecuencia mensual están disponibles con un
mes de desfase. Por esto cada variable tiene un rezago de 30 días.
e) Datos correctos y erróneos: se envían datos correctos a la siguiente fase de carga.
f) Datos erróneos: se ejecutan políticas de tratamiento de excepciones declaradas en los puntos a y b, en
TPM IPSA IMACEC IPEC UF EMBI
T10Y SWAP_2Y SWAP_5Y SWAP_10Y SWAP_UF_2Y SWAP_UF_5Y SWAP_UF_10Y USD COBRE PETROLEO VIX
Variables
Económicas
Variables
Financieras
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
14
el caso de dato diferente de número real reemplazar con último valor de la fecha anterior válida.
• Carga: el proceso de carga definido es de acumulación simple a partir de la fecha acordada con los
usuarios del negocio (01/01/2014). La base de datos de Finanzas e Inversiones contiene una única tabla
donde se almacena la fecha y los valores de las 17 variables seleccionadas, a continuación las
consideraciones para esta definición.
a) Fácil de manipular por los usuarios.
b) En el futuro, si requieren más variables se crean campos adicionales.
c) Si el modelo requiere menos variables porque la fuente descontinúa la publicación de algún
indicador o deja de ser relevante como predictor se filtra en la herramienta de minería de datos.
Las restricciones del ambiente destino de los datos son:
a) Valores únicos: solo debe existir un valor por cada fecha y cada indicador
b) Campos obligatorios: no se permite valores nulos en ningún campo.
c) Rangos de valores: deben ser datos numéricos y de tipo continuo.
Figura 4: Proceso ETL de Gerencia de Finanzas, Análisis de Activos e Inversiones
5.3.2 Estadísticos de los datos
Se analizaron las variables desde un enfoque teórico, estadístico y descriptivo con el fin de entender los datos
y acotar el número de variables relacionadas que afectan el valor o movimiento de la tasa de interés. El Anexo
corresponde al análisis estadístico descriptivo de cada variable; los valores estadísticos permiten acotar los
rangos de análisis y detectar valores outlier que entregaría el modelo predictivo.
Utilizando la técnica de Correlaciones y Factorizaciones, se obtuvo la matriz de correlaciones sobre las
variables continuas, para ilustrar el sentido y la magnitud de las relaciones de los datos en uso, la cual se
presenta en la figura 5; se observa una alta relación entre las diferentes tasas de interés Swap a distintos plazos
y una elevada correlación entre el IPSA, la TPM y la UF.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
15
Figura 5: Matriz de Correlaciones entre las variables económico financieras 2014-2018
5.4 Modelado
El modelo a generar busca demostrar que la relación entre las variables financieras y económicas en Chile
cambia dependiendo del contexto económico. En la etapa anterior se efectuó el análisis estadístico y se
cuantificó la relación causal entre las variables; esta información permite conocer las principales variables del
mercado chileno para identificar los escenarios económicos.
Es relevante contar con una técnica predictiva que grafique la interacción de las variables al estimar la tasa de
interés fija (variable objetivo), o cualquier otro indicador financiero. Se seleccionaron los árboles de decisión
porque permiten cumplir con este requisito; este tipo de modelo está diseñado para responder preguntas como
si la variable subirá o bajará en cierto rango a cierto plazo, versus el resto de los modelos que intentan
predecir el valor exacto de la variable estimada.
Para la aplicación del modelo se dividieron los datos en dos conjuntos; de entrenamiento, se utiliza para
ensayar el modelo y obtener sus parámetros, y de comprobación para medir el poder predictivo del modelo
(ver Figura 6).
Figura 6: Configuración para dividirlos conjuntos de entrenamiento y prueba
En la primera etapa de creación del modelo se obtiene una nueva variable que denominada Escenario;
considerando tanto las variables económicas, que entregan información rezagada de cambios en contexto
económico, como las financieras que cuentan con mayor frecuencia. Teóricamente, estas se relacionan entre sí
afectando la dinámica del mercado de inversiones y las tasas.
La variable objetivo Escenario, se fundamenta en el análisis histórico de cómo se han relacionado las
distintas variables bajo distintos periodos de tiempo y la búsqueda de patrones que se repitan en el tiempo. Se
aplicó análisis de conglomerados como método de segmentación y árboles de decisión como método
predictivo.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
16
El resultado del periodo de tiempo analizado son tres clústers, que se denominan acorde al contexto
económico de un país; crisis C, debilitamiento D y recuperación R.
Figura 7: Resumen del modelo Clustering
Las variables utilizadas, el tamaño y los valores de cada clúster se muestran en la figura 8, es posible
identificar y relacionar cada conglomerado con un escenario económico. Por ejemplo, el cluster 3
(Recuperación) está caracterizado por buenos niveles de la bolsa (IPSA), un buen nivel del precio del cobre y
un bajo nivel del dólar, índice de bonos soberanos (EMBI), índice de volatilidad (VIX). Por el otro lado el
cluster 2 (Crisis) presenta nivel de volatilidad y EMBI alto,baja de la bolsa y precio de cobre.
Figura 8:Variables por importancia dentro del cluster
A partir del resultado de creación de Escenarios económicos, tomando la partición de entrenamiento se
observa que la frecuencia de ocurrencia en cada segmento es dispar, lo que puede llevar al modelo a
subestimar los resultados extremos, creando un problema en el algoritmo que aprende de los
datos;generalmente se guía de los valores con mayor frecuencia dejando menos desarrolladas las ramas de
resultados extremos.Si los datos están bien equilibrados, con cantidades aproximadamente iguales de
resultados, el modelo tendrá una mayor oportunidad de encontrar patrones que distinga los grupos. Para
corregir se equilibra multiplicando la muestra por un factor que equipara la cantidad de ocurrencias,
asegurando la correcta estimación del árbol, SPSS Modeler entrega una herramienta denominada nodo de
Balance, útil para crear una directiva de equilibrio.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
17
Antes Factores Después
Figura 9: Tablas de frecuencia a equilibrar
Con la variable objetivo ajustada, se define y construye el árbol de decisión considerando las características
del algoritmo C5.0: maneja gran cantidad de variables continuas seleccionadas, maneja posibles valores
faltantes y posee un buen criterio de optimización.
El árbol resultante toma en cuenta las variables más relevantes en la determinación del escenario, su
secuencia y condiciones y, como a partir de ciertos umbrales estas van cambiando sus relaciones y relevancia.
Los predictores en orden descendente de importancia son:
• IPSA 0,5
• IPEC 0,35
• COBRE 0,3
• SWAP_UF_5Y 0,2
• EMBI 0,1
• TPM 0,05
• VIX 0,03
En primer lugar, aparece el IPSAque refleja las expectativas económicas a futuro, dado que corresponde a un
índice representativo del mercado. Las variables financieras tienen un peso menor en la predicción del
escenario.
Los resultados entregados por el modelo consideran relaciones no lineales entre las variables, por lo que su
interpretación puede presentar objeciones, razón por la que se crea una versión “humana” de los escenarios
considerando: los mismos datos de las variables, la coincidencia en la ocurrencia con eventos conocidos como
una crisis económica, máximos de la bolsa (recuperación) y el IPEC que revela los cambios de tendencia y se
utiliza para delimitar el largo de los escenarios, presenta máximos después de cada periodo de crisis que
marca el término de un periodo de recuperación y el comienzo del periodo de debilitamiento, lo que hace
posible identificar escenarios también de forma manual. En la figura 10 se muestra el detalle de una crisis
económica del periodo analizado, la evolución del IPEC y tres de variables económicas importantes del
mercado chileno. Los periodos de tiempo reflejan casi contemporáneos los escenarios, tanto en el análisis de
conglomerados como los construidos manualmente.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
18
Figura 10: Construcción de escenarios manual
En la segunda etapa, los cluster creados se designan como escenario. La variable objetivo es la “tasa pesos a
5 años”, se utilizan las nuevas entradas“t-escenario” y el grupo de las variables independientes para conocer
cuáles las variables influyentes en la estimación de la tasa.
Se observa que las variables que explican mejor la variable objetivo “tasa pesos a 5 años” son aquellas del
grupo de las variables de mercado, destacando la “tasa swap promedio cámara” que está muy relacionada con
la tasa libre de riesgo.
La capacidad explicativa de los grupos de variables financieras y económicas, evidencia que si bien ambos
grupos sirven en la estimación de la “tasa pesos a 5 años” (SWAP_5Y), el grupo de variables económicas
entrega un contexto económico donde las variables de mercado interactúan de manera distinta. Para ilustrar
esto se construyó un árbol con la “tasa pesos a 5 años” como variable objetivo, pero esta vez dividiendo los
datos para crear un árbol por cada escenario.
Clúster 1 Clúster 2 Clúster 3 Figura 11: Importancia del predictor por T-escenario
En la figura 11 se observan los resultados y se puede concluir que dentro de cada escenario el grupo de
variables económicas explica bastante menos que las financieras, pero más importante la priorización de
variables financieras para estimar el valor de la tasa es distinta por cada escenario. Por ejemplo en el clúster2,
que corresponde al “escenario crisis” asume un rol mayor la tasa de política monetaria TPM; es en este
momento cuando se generan mayores expectativas de ajuste, tornándose relevante para la curva libre de
riesgo. Ahora existe un argumento para reafirmar que la relación entre las variables cambia dependiendo del
contexto económico, variables económicas que se afectan en el corto plazo por variables financieras y de
forma similar a la inversa, influyen la tendencia a largo plazo.
La figura 12 muestra la evolución de la variable Escenario en función de la “tasa pesos a cinco años”, los
periodos de tiempo se corresponden con los cluster Debilitamiento, Crisis y Recuperacion, tambien; los
valores de la tasa registran los minimos y maximos manteniendo la tendencia de cada escenario económico.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
19
Figura 12: Evolución de la tasa a cinco años (SWAP_5Y) en función del escenario
5.5Evaluacióndel Rendimiento
Esta sección corresponde a la validación de los resultados generados, donde se muestran las optimizaciones
realizadas al modelo de manera de obtener el mejor resultado posible.
Respecto del análisis descriptivo de conglomerados (bietápico), así como el de clasificación (árbol C5.0) se
observa que las principales variables corresponden al grupo de las variables económicas. Destacando la tasa
“Swap promedio cámara en UF a 5 años” junto a la cotización del cobre. No obstante, frente a cierto
escenario explicado por las variables económicas, es la tendencia de las variables financieras la que permite
discriminar si estamos en la parte descendente o ascendente del ciclo.
Figura 13: Árbol de decisión variable objetivo T-Escenario
En la figura 13 se muestra el árbol generado por SPSS Modeler; indica que la bondad del árbol cuando se
generaliza para una mayor población utilizando la validación cruzada, obtuvo un valor sobre el 90% para el
modelo inicial.
Otros aspectos notables del árbol, que explican eventos de crisis: las variables más importantes para predecir
una crisis corresponden al IPSA e IPEC identificando los valores umbrales que hacen bastante probable
desencadenar una crisis. Dada la ventaja del árbol de tener la capacidad de explicar su resultado, el siguiente
paso sería generar un árbol excluyendo estas dos variables de manera de buscar más patrones entre las
variables para detectar un escenario de crisis.
Al excluir las variables IPSA e IPEC del árbol cambia su estructura tomando relevancia el valor dólar (USD),
las tasas de mercado representadas por la tasa de política monetaria TPM y el “Swap promedio cámara en UF
a 5 años”. Es con esto, que el árbol predice una crisis con un peso depreciado y tasas interbancarias bajo el
3% anual. Se identifican los umbrales que generan los distintos escenarios, en términos de la importancia del
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
20
predictor, la cantidad de variables y su grado predictivo es menor comparado con el 57% del escenario de
Recuperación (ver Figura 11), el USD y la tasa de política monetaria TPM explican aproximadamente el 40%
del árbol (ver Figura 14).
Figura 14: Árbol de decisión variable objetivo T-Escenario, excluye IPSA e IPEC de Escenario Crisis
5.5.1Validación Cruzada
Se escogió un 70% de los datos originales para entrenar el modelo, la cual se denomina Partición de
Entrenamiento y un 30% para probar el modelo, esta última denominada Partición de Prueba. SPSS Modeler
crea una nueva variable para identificar los datos de cada partición.
La profundidad del árbol con la variable objetivo “tasa en pesos a 5 años” es de 6 niveles utilizando las
particiones de entrenamiento y prueba. SPSS Modeler permite ajustar para que el algoritmo sea capaz de
generalizar al procesar la partición de prueba y devuelva un resultado fiable dada una mayor capacidad de
generalización.
Se calculó la precisión y el error del modelo generado. El valor final de precisión entregado por SPSS
Modeler es 99,84% que indica una buena capacidad de predicción de la tasa, y por lo tanto se podría usar el
modelo sobre el conjunto de prueba. El rendimiento alto se debe a que la variable escenario cambia de estado
pocas veces en comparación a la cantidad de información incluida en su modelamiento, adicional considerar
que se utilizaron los mismos datos para obtener la variable objetivo a través del clustering.
Partición 1 – Entrenamiento
Precisión 1,264 99.84%
Error 2 0.16%
Tabla 3: Precisión y el error del modelo partición de entrenamiento
Sin embargo la estabilidad de la variable escenario es exactamente la condición base para el desarrollo de la
segunda etapa, donde se creó un árbol sobre cada uno de los tres escenarios para las variables.
Se asegura que la distribución sea aproximadamente la misma en los todos los subconjuntos; la amplitud del
intervalo es un factor importante, la cantidad de saltos entre intervalos de la variable objetivo decrece al
aumentar la amplitud, lo que implica un aumento en el rendimiento del modelo medido como el número de
aciertos al intervalo. Con la base de las estadísticas aplicadas a los datos (ver Anexo), la desviación típica de
la tasa Swap_5Y para toda la muestra es de casi 35 pb (punto base, es la centésima parte de un punto
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
21
porcentual 1 pb = 0.01%).
El cambio diario promedio de la variable es de alrededor de 2 pb ( ∑ (𝑖+1)−𝑖𝑛
𝑖=0
𝑛−1 ) (12).
Si bien el rendimiento con 2 pb base es bueno, un 88,37% sobre 289 cambios de ventana entregado por SPSS
Modeler, el número de intervalos es alto generándose árboles demasiado profundos con muchos posibles
valores. Para simplificarse transforma la variable objetivo en dos pasos, el primero; muestra la cantidad de
puntos base que cambio la tasa en un horizonte de 5 días. La fórmula:
𝐷𝑖𝑓_5𝑦 = 𝑟5𝑦 − 𝑟5𝑦𝑡−5 (13)
En el segundo paso, se convierte 𝐷𝑖𝑓_5𝑦 a una variable discreta utilizando sólo 6 posibles valores de la
siguiente forma:
Figura 15: 𝐷𝑖𝑓_5𝑦_𝐼𝑛𝑡
Con esto el árbol predecirá si la tasa en cinco días más subirá o bajará en tres posibles grados de magnitud.
Un valor de 𝐷𝑖𝑓_5𝑦_𝐼𝑛𝑡 entre las dos últimas cajas de ambos extremos permite realizar una apuesta concreta.
Los resultados presentados en la tabla 4 indican que el rendimiento del árbol es bueno. El modelo que incluye
todas las variables muestra un mejor desempeño, sobre el 70%, la razón de esto se debe a que dentro de un
escenario los cambios en la tendencia de algunas variables económicas pueden ayudar a explicar mejor los
movimientos de la tasa. Por ejemplo el IPSA presenta una correlación negativa respecto de la tasa, se
caracteriza porque los inversionistas se mueven entre activos riesgosos y libres de riesgo dependiendo del
nivel de volatilidad de los mercados, los movimientos extremos de la tasa se explican con toda la información
económica disponible.
Tabla 4: Precisión y el error de subconjuntos - partición de entrenamiento
5.5.2 Matriz de confusión
La matriz presenta la frecuencia de ocurrencia entre el movimiento real de la tasa, expresado en el eje vertical
versus los resultados estimados en el eje horizontal. La diagonal corresponde a la cantidad de veces que el
modelo estima correctamente el movimiento de la tasa para cada uno de los escenarios (Debilitamiento|
Crisis|Recuperación). Por ejemplo, como muestra la Figura 15, la celda (=>0pb, <0pb) con el valor 1|1|0
significa que el modelo predijo que el movimiento estaría entre 0 y -2 pb, siendo que realmente el movimiento
de la tasa estuvo entre 0 y +2 puntos base en 1, 1 y 0 oportunidades para los escenarios de Debilitamiento,
Crisis y Recuperación, respectivamente.
En general el modelo tiene un buen rendimiento, en la mayoría de las oportunidades el modelo falla en la
magnitud del movimiento pero no en su sentido por lo que en una apuesta su resultado sería favorable.
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
22
Figura 16: Matriz de Confusión –Árbol por escenario
5.6 Implementación y Trabajo Futuro
Dados los resultados que se han logrado y la certeza que ofrecen los algoritmos utilizados es posible crear
varios modelos y exportar todos los resultados diariamente a un servidor de archivos. SPSS Modeler genera
archivos de formato html, texto e imagen, tanto para los resultados del modelo así como para la evaluación
del rendimiento. Los principales datos que entregan son: características, tamaños, profundidad, importancia
de predictores, variables de entrada y parámetros del modelo.
El objetivo primario, por el cual se optó por algoritmos de arboles de decisión, fue que los resultados sean
entendidos de forma gráfica y clara, de manera que los usuarios expertos del dominio puedan validar y
utilizar la información no solo de la variable objetivo, sino de la interacción entre las variables analizadas
generando un feedback para afinar o mantener el modelo.
Desarrollos futuros involucran profundizar la investigación descriptiva de las variables para configurar
escenarios y entender la evolución en la relación de las variables relevantes del mercado chileno en la
predicción de futuras crisis. Así como requerimientos sobre la liquidez de los bancos que teóricamente afectan
fuertemente la relación entre las variables en periodos de crisis.
6 Validación de la Hipótesis
Los resultados expuestos muestran evidencia positiva y estadísticamente significativa entorno al hecho que
los modelos de árboles C5.0, en conjunto con la configuración de escenarios explicados por variables
económicas que tienen una visión de mediano plazo, generan resultados sobre el 70% de confianza en la
predicción. Acorde con la teoría de modelos predictivo y el dominio del problema el resultado obtenido es
adecuado para fundamentar la hipótesis. Las variables financieras de corto plazo y frecuencia diaria mejoran
de forma positiva el resultado del porcentaje obtenido.
El rendimiento del modelo muestra porcentajes de aciertos de los árboles de hasta 73.25%; si se considera que
parte de los errores son de magnitud pero no de signo, el rendimiento es mayor. El algoritmo C5.0 demostró
ser consistente, en su uso práctico entrega buenos resultados en las distintas pruebas realizadas en el tiempo.
Los consistentes resultados al aplicar métricas diferentes a los diferentes escenarios indican que otras métricas
no utilizadas en este trabajo como ROC deberán entregar resultados similares.
7 Conclusiones
En la hipótesis de este trabajo se planteó construir un modelo predictivo que permitiría estimar el movimiento
y/o valor de un indicador financiero, como la tasa de interés fija a cinco años, de esta forma se podrá realizar
una gestión adecuada sobre los activos del banco y el manejo de sus operaciones de inversión. A partir de una
gran cantidad de datos existentes sobre índices económicos y financieros de Chile y mercados internacionales,
en este trabajo se aplicaron técnicas de minería de datos para describir su tendencia e interacción. En el
ámbito financiero es conocido el uso de la tasa de interés como una variable instrumental de la política
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
23
monetaria, haciendo evidente su relación con el ciclo económico. Adicionalmente, la dinámica de las tasas de
interés se relaciona directamente con variables financieras como las paridades o el precio de las materias
primas.
Se demostró que los árboles de decisión, como técnica de minería de datos predictiva, se adaptaron a los
objetivos por su poder explicativo para estimar la variable objetivo. El modelo generó las relaciones no
lineales complejas para las 18 variables y graficó el camino que sigue la variable objetivo. La fácil
comprensión de un árbol permitió que los usuarios del negocio reconocieran patrones que van en línea con la
teoría económica y financiera, así como particularidades específicas del mercado chileno.
La tasa de interés tiene un comportamiento diferente dependiendo del contexto económico del país. Dado
esto, se definieron los escenarios permitiendo describirlos, demarcarlos y usarlos con la aplicación de árboles
de decisión, calibrados especialmente para cada uno de estos escenarios buscando mejorar la estimación de la
tasa a cinco años.
Una limitación del modelo de escenarios, corresponde a que el cambio de las relaciones entre variables no
podría generarse únicamente por la coyuntura económica, sino también por cambios estructurales o
regulatorios del mercado chileno. De ser así, será necesario un nuevo análisis descriptivo de las variables
incluidas en el modelo. Por otro lado, el modelado de la variable escenario considera principalmente
variables económicas que no debieran sufrir grandes alteraciones frente a cambios en los agentes de mercado
o modificaciones a la regulación. Durante el periodo analizado para este trabajo no existen cambios de este
tipo.
Un factor determinante del rendimiento es el tamaño del conjunto de entrenamiento versus el tamaño del
conjunto de comprobación. Es importante entrenar el árbol de manera que aprenda sobre secciones de los
datos que incluyan eventos extremos de la variable objetivo, pero si el conjunto de comprobación es muy
pequeño el rendimiento estará sobreestimado; esta debilidad depende específicamente de los datos que se esté
modelando.
Los arboles presentan un buen rendimiento. Destacar que si bien presentan errores en la estimación de la tasa,
en general no presenta errores respecto del signo del movimiento, lo que implica un rendimiento significativo
en las pruebas de rentabilidad de cartera.
Nuevos modelos se pueden construir a partir de modelos ya probados e intercambiar entre las variables
independientes y objetivo, todas son índices financieros y económicos que determinan el acierto de la gestión
de activos e inversiones, como ya se demostró.
En conclusión, se puede decir que este trabajo fue exitoso y contribuye al negocio en términos de la
utilización de árboles para describir la dinámica de las distintas variables frente a los distintos escenarios
económicos. Nuevos modelos se pueden construir a partir de modelos ya probados e intercambiar entre las
variables independientes y objetivo, todas las variables son índices financieros y económicos que determinan
el acierto de la gestión de activos e inversiones, como ya quedo demostrado en este trabajo.
Los desarrollos futuros comprenden profundizar la investigación de las variables relevantes del mercado
chileno que configuran los escenarios y entender su evolución por ejemplo en la predicción de futuras crisis.
Otros estudios, podrían extenderse a otros países emergentes para testear el uso de árboles en conjunto con la
estimación de escenarios y compararlos con otras herramientas predictivas.
Elaborando esta tesina se destaca el aprendizaje obtenido en el programa MTI, sobre la metodología CRISP-
DM, aporte fundamental para la gestión y conclusión del proyecto en el banco, así también desafiar a los
futuros profesionales a implementar nuevos modelos basados en minería de datos predictiva con el fin de
obtener conocimiento de las interacciones en el mercado financiero.
8 Referencias [1]Mascareñas J., “Activos Financieros de Renta Fija”, Universidad Complutense de Madrid, febrero 2007
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
24
[2] Wikipedia, “Trading”, junio 2019.
https://es.wikipedia.org/wiki/Trading
[3] Vlcek M.,“Portfolio Choice with Loss Aversion, Asymmetric Risk-Taking Behavior and Segregation of Riskless
Opportunities”, Swiss Finance Institute Research Paper No. 27, noviembre 2006.
[4] Hutchinson, James M., Andrew W., Lo y Tomaso Poggio ,“A Non-Parametric Approach to Pricing and Hedging
Derivatives Securities Via Learning Networks.” , The Journal of Finance, Julio 2003.
[5] Moreno A., Vicente P., “Aprendizaje basado en árboles de decisión: un estudio crítico desde Weka, RapidMiner y
SPSS Modeler”, XXVI Simposio Internacional de Estadística, agosto 2016
http://simposioestadistica.unal.edu.co/fileadmin/content/eventos/simposioestadistica/documentos/memorias/Memorias_20
16/Comunicaciones/Mineria_de_Datos/Aprendizaje_Arboles_WekaRapidMinerSPSS_Moreno_Salazar_Vicente_Galindo.
[6] Azevedo A., Filipe S.,“KDD, SEMMA and CRISP-DM: A Parallel Overview”, 2008
http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf
[7] FayyadU., Piatetsky-ShapiroG. y SmythP., “The KDD process for extracting useful knowledge from volumes of data”,
Communications of the ACM, vol. 391996.
[8] López C., “Minería de datos: técnicas y herramientas”, Editorial Paraninfo 8-9, enero 2007
[9] Molina L.,y García J.,“Técnicas de análisis de datos”, Universidad Carlos III – Madrid, 2014
[10] UNNE, “Aprendizaje automático mediante árboles de decisión”, enero 2013
http://www.aic.uniovi.es/ssii/SSII-T9-ArbolesDeDecision.pdf,
[11] Fayyad M., and Irani K, “On the handling of continuous-valued attributes in decision tree generation”,Machine
Learning 8 87-102, 1992.
[12] Moreno J., ”Redes Neuronales Artificiales aplicadas al Análisis de Datos”, 2002
https://pdfs.semanticscholar.org/37c3/cc5844480a16ae11ebd004ec7186c675b65a.pdf
[13] Zimmermann H.,“Yield Curve Forecasting by Error Correction Neural Networks and Partial Learning”, European
Symposium on Artificial Neural Networks, 2002
[14] Winter School on "Data Mining Techniques and Tools for Knowledge Discovery in Agricultural Datasets,
”Evaluation Measures for Data Mining Tasks”, diciembre 2011
http://iasri.res.in/ebook/win_school_aa/notes/Evaluation_Measures.pdf, "Data Mining Techniques and Tools for
Knowledge Discovery in Agricultural Datasets”
[15] Chapados, N., "Sequential Machine Learning Approaches for Portfolio Management.", Département d'informatique
et de recherche opérationnelle Faculté des arts et des sciences. Doctoral thesis, noviembre 2009.
[16] Santamaria W., “Técnicas de Minería de Datos Aplicadas en la Detección de Fraude:Estado del Arte”, enero 2006
https://www.researchgate.net/publication/240724702_Tecnicas_de_Mineria_de_Datos_Aplicadas_en_la_Deteccion_de_F
raudeEstado_del_Arte
[17] Zengyou H., Xiaofei X. and Shengchun D.,“A Fast Greedy Algorithm for Outlier Mining”, Computer Science, 2005.
[18] Zengyou H., Xiaofei X., Joshua Z. and Shengchun D.,“Mining class outliers: concepts, algorithms and applications
in CRM”,Expert Systems with Applications, Vol 27, pp 681-697, noviembre 2004.
[19] Cliente Aptiva, “Minería de datos Técnicas Descriptivas y Predictivas de Clasificación”, enero 2016
http://exa.unne.edu.ar/depar/areas/informatica/dad/BDII/Presentaciones_Proyector/Mineria_de_Datos_
Tecnicas_Descriptivas_ y_Predictivas_de_Clasificacion.pdf
[20] Tianming H. y Sam Y. S.,“Detecting pattern-based outliers. Pattern Recognition Letters”, Vol 24 pp3059-3068,
diciembre 2003.
[21] Caroni C. y Prescott P.,“On Rohlf’s Method for the Detection of Outliers in Multivariate Data”,Journal of
Multivariate Analysis, Vol 52, pp 295-307, febrero 1995.
[22] Fernandez J. A., Wahl F., Noord O. y Massart D.,“Methods for outlier detection in prediction”,Chemometrics and
Intelligent Laboratory Systems, Vol 63, pp 27-39, agosto 2002.
[23] Atkinson A.y Riani M.,“Exploratory tools for clustering multivariate data”, Computational Statistics and Data
Analysis , Vol. 52, pp272-285, septiembre 2007.
[24] Garg A.,“Forecasting exchange rates using machine learning models with time-varying volatility”, Master Thesis in
Statistics and Data Mining from Linköpings universitet/Statistik, 2012.
[25] Peramunetilleke, D., y Wong, R. K.,“Currency exchange rate forecasting from news headlines”, Australian
Computer Science Communications, 24(2), 131-139, 2002
[26] Pegah Falinouss, “Stock trend prediction using news articles a text mining approach”, Master thesis Luleå University
of Technology, ISSN: 1653-0187 1-165, 2007.
[27] Sharma A., y Panigrahi, P. K.,“A Review of Financial Accounting Fraud Detection based on Data Mining
Techniques”, International Journal of Computer Applications, 2012
[28] Iu K. yXu L.,“Optimizing financial portfolios from the perspective of mining temporal structures of stock returns In
Machine Learning and Data Mining in Pattern Recognition”, Springer Berlin Heidelberg 266-275, Conference paper,
2003.
[29] Soni S.,“Applications of ANNs in stock market prediction: a survey”, International Journal of Computer Science &
Engineering Technology 71-83, 2011.
[30] Enke D.y Thawornwong, S.,“The use of data mining and neural networks for forecasting stock market returns”,
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
25
Expert Systems with applications, 927-940, 2005.
[31] Aggarwal R. y Demaskey A.,“Using derivatives in major currencies for cross-hedging currency risks in Asian
emerging markets”, Journal of Future Markets 781–796, 1997.
[32] Maberly E. D.,“The informational content of the interday price change with respect to stock index futures”, Journal
of Futures Markets385–395, 1986.
[33] Wu Y. y Zhang H.,“Forward premiums as unbiased predictors of future currency depreciation: a non-parametric
analysis”. Journal of International Money and Finance 609–623, 1997.
[34] Vivek Palaniappan, “Introducing neural networks to predict stock prices”, 2018
https://github.com/VivekPa/IntroNeuralNetworks, Analytics Vidhya
[35]Jakob A., “Time Series Prediction Using LSTM Deep Neural Networks”, septiembre 2018
[36]Crescenzio G, “Artificial Neural Networks in Financial Modelling”, 2005.
[37] Dase R. K.y Pawar D. D.,“Application of Artificial Neural Network for stock market predictions: A review of
literature”, International Journal of Machine Intelligence14-17, 2010.
[38] Vela D., “Forecasting Latin-American yield curves: An artificial neural network approach”, Borradores de
Economía, Banco de la República Colombia, Num. 761, 2013.
[39] Muñoz, M., “Aplicación de Herramientas de Data Mining en la Predicción de la Tasa de Interés en Chile”,
Universidad de Chile Escuela de Postgrado de Economía y Negocios, 2014.
[40] Economipedia, “Swap”, 2019
https://economipedia.com/definiciones
[41] Varela F., “Mercados de Derivados: Swap de Tasas Promedio Cámara y Seguro Inflación”, Documentos de estudio
del Banco Central de Chile N 56, 2007
[42] Batarce M., “Efectos de la Emisión de Bonos del Banco Central Sobre las Tasas de Interés”, Banco Central de Chile
Documentos de Trabajo, 2009
Universidad Técnica Federico Santa María
Departamento de Informática
Magíster en Tecnologías de la Información
26
Anexo
Tabla 5: Estadísticas descriptiva de los datos
Medida Mínimo Máximo Rango Media Desviación
estándar(sd)
Error Típico
de la Media
Coeficiente de
Variación (cv)
Asimetría kurtosis Varianza Validos Únicos
COBRE Continua 1.940 3.430 1.490 2.713 0.381 0.009 0.140 -0.284 -1.060 0.145 1825 0
EMBI Continua 1.050 3.060 2.010 1.584 0.384 0.009 0.242 1.367 1.528 0.148 1825 0
IMACEC Continua 93.560 124.840 31.280 106.163 6.140 0.144 0.058 0.768 0.601 37.700 1825 0
IPEC Continua 31.500 54.600 23.100 42.444 6.554 0.153 0.154 0.238 -1.175 42.957 1825 0
IPSA Continua 33.910 58.800 24.890 44.063 6.876 0.161 0.156 0.629 -1.139 47.273 1825 0
PETROLEO Continua 26.210 107.260 81.050 60.161 19.585 0.458 0.326 1.016 0.028 383.587 1825 0
SWAP_2Y Continua 2.500 4.370 1.870 3.386 0.429 0.010 0.127 -0.007 -0.942 0.184 1825 0
SWAP_5Y Continua 3.350 4.940 1.590 3.970 0.342 0.008 0.086 0.323 -0.535 0.117 1825 0
SWAP_10Y Continua 3.930 5.600 1.670 4.528 0.332 0.008 0.073 0.961 0.763 0.110 1825 0
SWAP_UF_2Y Continua -0.080 1.500 1.580 0.580 0.303 0.007 0.523 0.389 -0.232 0.092 1825 0
SWAP_UF_5Y Continua 0.420 1.990 1.570 1.089 0.271 0.006 0.248 0.404 0.239 0.073 1825 0
SWAP_UF_10Y Continua 1.000 2.470 1.470 1.528 0.256 0.006 0.167 0.940 1.183 0.065 1825 0
T10Y Continua 1.360 3.240 1.880 2.347 0.410 0.010 0.175 -0.057 -0.580 0.168 1825 0
TPM Continua 2.500 4.500 2.000 3.118 0.531 0.012 0.170 0.552 -0.364 0.281 1825 0
UF Continua 23315.570 27565.790 4250.220 25750.074 1172.559 27.448 0.046 -0.418 -1.013 1374894 1825 0
USD Continua 524.610 730.310 205.700 638.257 44.828 1.049 0.070 -0.457 -0.553 2009.515 1825 0
top related