modelos estadsticos multivariantes, de pronsticos y de … · modelos estadÍsticos multivariantes,...
TRANSCRIPT
MODELOS ESTADÍSTICOS MULTIVARIANTES, DE PRONÓSTICOS Y DE CLASIFICACIÓN NO PARAMÉTRICOS PARA EL ANÁLISIS DE
RIESGO BANCARIOa
Grupo Banca: Gerardo Colmenaresb, Ruth Guillénc, Alexis Melod, María Alejandra Ayalae
Resumen Los mecanismos de decisión pertinentes al control de riesgo bancario
cada vez se ven más afectados en sus mediciones, debido a la dinámica
impuesta por los mercados globales y su implicación, de impacto local e
internacional, en las políticas financieras. Para las mediciones y
estimaciones de las exposiciones al riesgo por parte de las instituciones
financieras, es necesario utilizar metodologías y herramientas
especializadas, destacándose la construcción de modelos de pronóstico y
clasificación mediante técnicas estadísticas multivariantes y de
inteligencia artificial. Estas técnicas permiten la consideración de
variables y factores definitorios de los riesgos que se van a estimar;
esto es, el reconocimiento de comportamientos que claramente definen
los patrones de riesgo para dar respuesta a las necesidades de
información consistente. Se construirán, por tanto, modelos donde el
preprocesamiento de datos es un factor determinante para la generación
de variables categórica (riesgo financiero) y cuantitativas (razones
financieras). La identificación de estas variables y la aceptable calidad
de los datos que ellas definen, son usados en modelos híbridos de origen
paramétrico y no paramétrico conducentes al reconocimiento de los
patrones de comportamiento del riesgo en el sistema bancario mediante
a Esta investigación corresponde a un manuscrito preliminar de avance para un proyecto financiado por el convenio ULA-BCV al grupo transdisciplinario denominado Grupo Banca. b Instituto de Investigaciones Económicas y Sociales. Universidad de Los Andes. Mérida. Venezuela c Instituto de Investigaciones Económicas y Sociales. Universidad de Los Andes. Mérida. Venezuela d Instituto de Investigaciones Económicas y Sociales. Universidad de Los Andes. Mérida. Venezuela e Escuela de Estadística. Universidad de Los Andes. Venezuela
1
las opciones de pronóstico y clasificación. Las técnicas involucradas para
la conformación de los modelos híbridos son: a) Análisis de
Componentes Principales (ACP) como mecanismo de reducción de
variables, b) Análisis Discriminante (AD), como preprocesador de la
variable dependiente, c) Análisis de Supervivencia (AS), como método
de pronóstico de supervivencia para cada banco, y, d) modelos no
supervisados, para pronóstico y clasificación de Redes Neuronales (RN),
fundamentalmente la función logística con propagación del error hacia
atrás (RN-RP) y la función de base radial (RN-BR).
Palabras claves: modelos híbridos, técnicas multivariantes, redes
neuronales, riesgos financieros, preprocesamiento de datos.
Introducción
La mayor movilidad internacional de los recursos, la diversificación de
los productos financieros y el surgimiento de la volatilidad a nivel global
son factores que confluyen en la necesidad de adoptar métodos y
procedimientos para el control de riesgos.
Según las Normas para una Adecuada Administración Integral de
Riesgos (Superintendencia de Bancos y otras Instituciones
Financieras de la República Bolivariana de Venezuela. Gaceta Oficial
No 37.703, 3 de junio de 2003), “la sólida y adecuada administración
de riesgo garantiza el equilibrio operativo de las instituciones
financieras, lo que permite valorar apropiadamente las operaciones
de riesgo, al tiempo que coadyuva a una precisa valoración de los
resultados obtenidos en las operaciones, y por ende a reflejar una
real retribución a los recursos propios. Es de vital importancia que las
instituciones financieras implementen mecanismos y procesos; así
como cuenten con recursos humanos calificados y experimentados en
el control de los riesgos generados por sus operaciones; todo ello a
2
los fines de que logren identificar, medir, monitorear, limitar,
controlar, informar y revelar claramente los diferentes tipos de riesgo
a que están expuestas. La administración integral de riesgos, supone
la adecuación de la estructura organizativa de las instituciones
financieras, a los fines de establecer la unidad administrativa y
operativa requerida para la valoración, control y monitoreo de los
niveles de riesgos asumidos”
El control de riesgos como herramienta de administración de
instituciones financieras y productivas, opera como instrumento de
medición y de control. Los indicadores para el control de riesgos
conforman una guía para la adecuada comunicación de las empresas
con sus acreedores e inversionistas con relación a su solvencia y
operaciones, además de servir como indicadores de regulación
aplicable a operaciones con valores y derivados, e indicar los
requerimientos de capital.
La Administración Integral de Riesgos es un conjunto de objetivos,
políticas, procedimientos y acciones que se implementan para
identificar, medir, monitorear, limitar, controlar, informar y revelar
los distintos tipos de riesgos a que se encuentran expuestas las
instituciones financieras. Se trata de un proceso continuo que
requiere por parte de las organizaciones el desarrollo de políticas,
metodologías e infraestructuras. Las políticas son el resultado de
definiciones sobre estrategias para enfrentar los riesgos. Los métodos
incorporan mecanismos de valuación de los distintos tipos de riesgos
a que puede estar expuesta una organización, tales como riesgos de
mercado, de crédito y riesgos operacionales. La infraestructura se
refiere a la creación y mantenimiento de las bases de datos con
información pertinente, el equipamiento físico y de sistemas, y
también a la capacitación de personal y el desarrollo de habilidades
técnicas y gerenciales.
3
El Riesgo, en general, puede definirse como la volatilidad de los flujos
financieros, generalmente derivada del valor de los activos o los pasivos
de la organización en estudio. Las empresas están expuestas en
general, a tres tipos de riesgo: riesgos de negocios, riesgos estratégicos
y riesgos financieros.
Los riesgos de negocios son aquéllos que la empresa está dispuesta a
asumir para crear ventajas competitivas y agregar valor para los
accionistas. Los riesgos de negocios, o riesgos operativos, tienen que
ver con el mercado del producto en el cual opera la empresa y
comprenden innovaciones tecnológicas, diseño del producto y
mercadotecnia. La exposición racional a este tipo de riesgo es
considerada como una habilidad interna o ventaja competitiva de la
propia empresa.
Los riesgos estratégicos son los resultantes de cambios fundamentales
en la economía o en el entorno político. La expropiación y la
nacionalización también son consideradas riesgos estratégicos. Estos
riesgos difícilmente se pueden cubrir, a no ser por la diversificación a
través de distintas líneas de negocios y de distintos países.
Los riesgos financieros están relacionados con las posibles pérdidas en
los mercados financieros. Los movimientos en las variables financieras,
tales como las tasas de interés y los tipos de cambio, constituyen una
fuente importante de riesgos para la mayoría de las empresas. La
exposición a riesgos financieros se puede optimizar de tal manera que
las empresas puedan concentrarse en lo que es su especialidad:
administrar su exposición a los riesgos de negocio. En contraste con las
empresas industriales, la función principal de las instituciones
financieras es administrar activamente los riesgos financieros. Los
bancos, ahora, se han percatado que deben identificar y medir con
precisión los riesgos para posteriormente controlarlos y evaluarlos de
forma apropiada. Un entendimiento cabal del riesgo permite que los
4
administradores financieros puedan estar en condiciones de planear
adecuadamente la forma de anticiparse a posibles resultados adversos y
sus consecuencias y, de este modo, estar mejor preparados para
enfrentar la incertidumbre futura sobre la variables que puedan afectar
sus resultados. La administración del riesgo es el proceso mediante el
cual se identifica, se mide y se controla la exposición al riesgo. En
definitiva, la administración del riesgo financiero se ha convertido en
una herramienta esencial para la supervivencia de cualquier actividad
empresarial.
Generalmente, los riesgos financieros se pueden clasificar en riesgo de
mercado, riesgo de crédito, riesgos de liquidez, riesgo operacional y
riesgo legal. Este estudio se concentrará fundamentalmente a los
riesgos financieros bajo la premisa de que deben identificarse y medirse
con precisión estos tipos de riesgos para posteriormente controlarlos y
evaluarlos de forma apropiada.
En la identificación del problema se han considerado las siguientes
etapas en el proceso de análisis de riesgo:
a) Identificación: en un proceso dinámico y productivo aparecen nuevos
y variados riesgos; es necesario establecer sistemas y metodologías
para su descubrimiento oportuno.
b) Medición: luego de identificados, los riesgos financieros deben ser
cuantificados a través de las estimaciones de ocurrencia y severidad de
los eventos que impliquen riesgo. Tal es el caso de las funciones
supervivencia, y la construcción de modelos conducentes al
reconocimiento del riesgo mediante su pronóstico de severidad.
c) Control: el establecimiento de mecanismos de control permite velar
por el cumplimiento de las políticas de riesgo.
5
Preprocesamiento de los datos
En la actualidad las series históricas de datos pueden ser aprovechadas
para la generación de nueva información. La integración de técnicas en
modelos híbridos (paramétricos y no paramétricos) están en capacidad
de generar esta nueva información sin necesidad de incurrir en gastos
exagerados de recolección de nuevos datos. A costos relativamente
bajos se pueden originar los nuevos usos de la información que no
habían sido identificados al momento que fue creada la fuente original
de datos. Estos nuevos usos están orientados fundamentalmente a la
preparación de modelos de predicción, modelos de clasificación de
patrones mediante su reconocimiento, etc.
Uno de los medios para alcanzar estos objetivos es el análisis
exploratorio de datos. Esta exploración ciertamente es requerida en
ciertos procesos que conducen a la construcción de modelos de
pronóstico o clasificación y se le conoce también con el nombre de pre-
procesamiento. La selección u origen de estos conjuntos de datos a
partir de las fuentes históricas debe ser representativa de su fuente
original y a su vez, consistente al ser conformada, en algunos casos, por
un conjunto reducido de datos (muestras) que caractericen la fuente
histórica, mediante las variables originales o las transformadas.
Las RN(s) contribuyen a llenar estas expectativas. Son capaces de
adquirir conocimiento a partir del estímulo-respuesta ofrecido con
ejemplos que conducen inicialmente al aprendizaje y posteriormente al
pronóstico. Es decir, las RN(s) permiten la construcción de modelos
fundamentalmente no lineales para la predicción y reconocimiento de
patrones aprovechando esas fuentes históricas de datos. A través de sus
múltiples algoritmos que permiten la construcción de modelos de
predicción y clasificación, se podría revitalizar el uso de esas fuentes de
datos a un muy bajo costo.
6
La robustez de estos modelos, en cuanto a su capacidad de aprender y
generalizar, ha sido probada lo suficiente como para indicar que
representan una técnica confiable. [Colmenares, 2004], [Dong and
McAvoy, 1996], [Kramer, 1992], [Tan et al., 1995], [Xue, 1999].
Sin embargo, para asegurar que los modelos sean confiables, se
requiere que todos los valores observados y que van a ser incluidos
como elementos de aprendizaje durante la fase de entrenamiento de la
red neuronal, representen el dominio que dibuja la fuente histórica de
datos, es decir, sean representativos del espacio multidimensional
conformado por los datos. De este modo, se puede asegurar que un
modelo de red neuronal será de poca capacidad predictiva y/o de
clasificación si las observaciones para el entrenamiento no son
representativas. De igual manera, un modelo bien construido no tendrá
buena capacidad predictiva, si sus valores no son representativos. En
definitiva, las observaciones seleccionadas desde las fuentes históricas
mediante los métodos de preprocesamiento, deben representar el
dominio completo de la fuente de datos. Las herramientas de
preparación de los datos, previos a la construcción de los modelos, le da
una mayor utilidad a la serie histórica bajo la premisa de que se
extraerá información valiosa o se generará una nueva para así lograr la
fuente requerida en la construcción de los modelos híbridos.
Propuesta
En el diagrama general se puede observar una conceptualización gráfica
de los modelos híbridos. Segmentados de acuerdo al esquema de
entradas, procesos y producto, se puede observar que derivados de la
construcción de los datos que han sido debidamente procesados, se
realizan la construcción de varios modelos.
ACP es usado para la construcción de las variables latentes
seleccionadas como variables de entrada (explicativas) del modelo, un
7
conjunto de variables macroeconómicas que inciden como variables
explicativas (entrada) y las variables cualitativas determinadas en el
siguiente modelo, como variables de salida o dependientes. Estos datos
seleccionados (patrones de entrada y salida) son usados por una red
neuronal RN-RP para facilitar el pronóstico de las clases de riesgo.
AD permite la construcción de las variables categóricas, clasificando
linealmente en dos clases distinguibles, el fenómeno de comportamiento
de riesgo. Esta variable es usada por el modelo anterior y a su vez,
conjuntamente con los datos organizados de las razones financieras
originales, permitirán reconocer los grupos que identifican a los bancos
en los grupos que serán construidos automáticamente por la red
neuronal RN-RP al culminar la fase de entrenamiento. Estos grupos de
algún modo sectorizan la banca comercial de acuerdo a ciertas
similaridades.
Por último, análisis de supervivencia y redes neuronales son utilizados
para describir la función de supervivencia para cada banco descrito en
los datos mediante las razones financieras. Regresión lineal múltiple y
redes neuronales mediante RN-RP sirven de estimadores de los
parámetros de las variables explicativas que inciden directamente en la
estimación de cada una de las funciones de supervivencia. Por otro lado,
los umbrales de los valores de quiebra obtenidos representan una
referencia de salida para la construcción de un nuevo modelo de
pronóstico usando RN-RP y a su vez, valores alternativos de
comparación con los pronósticos obtenidos en cada uno de los modelos
construidos mencionados anteriormente
8
Figura 1. Diagrama General
Referencias. Ayala, Roberto. (1999). Modelos de Alerta Temprana. El Caso
Ecuatoriano: 1994-1997. Notas Técnicas No. 51. Banco Central de
Ecuador.
Ayesterán, José R., Ramoni, Josefa y Orlandoni Giampaolo. (1996).
Crisis y Poder: El caso del Sistema Financiero. Economía Nueva Etapa.
No. 11.
Dong D. and McAvoy T. (1996). Nonlinear Principal Component Analysis
-Based on Principal Curves and Neural Networks. Computer Chem.
Engng., vol 20, no. 1, pp. 65-78.
9
Guillermo Rozenwurcel y Leonardo Bleger. (1997). El Sistema Bancario
Argentino en los Noventa: De la Profundización Financiera a la Crisis
Sistémica. Desarrollo Económico, V 37, No. 146.
Kramer M. (1992). Autoassociative Neural Networks. Computer Chem.
Engng., vol. 16, no. 4, pp. 313-328.
SUPERINTENDENCIA DE BANCOS Y OTRAS INSTITUCIONES
FINANCIERAS (2003). Normas para una Adecuada Administración
Integral de Riesgos (Gaceta Oficial No 37.703 del 3 de junio de 2003.
RESOLUCIÓN No 136-03. Caracas, 29 de mayo de 2003). REPÚBLICA
BOLIVARIANA DE VENEZUELA.
Tan S. and Mavrovouniotis M. (1995). Reducing data dimensionality
through optimizing neural network inputs. AIChE Journal, vol 41, no. 6,
pp. 1471-1480.
Thomas, L., Edelman, D. and Crook, J. (2002). Credit Scoring and its
applications. Oxford University Press, Oxford.
Xue Z. Wang. (1999). Data mining and knowledge discovery for process
monitoring and control, Springer-Verlag. Great Britain.
10
CONSIDERACIONES PRELIMINARES DE LA GESTIÓN DEL RIESGO EN EL SISTEMA BANCARIO-EL CASO DE LAS CRISIS BANCARIAS
EN VENEZUELA.
Ruth Guillén Comentario inicial
Una de las grandes dificultades que enfrentan los profesionales en la
actualidad, es que dada la gran especialización de los grupos con
diferentes perfiles se hace difícil el dialogo entre los mismos, el
aprovechamiento de técnicas para el análisis de diversos problemas, así
como la comprensión de la naturaleza de los mismos.
En este sentido, el análisis del sistema bancario, específicamente el
riesgo bancario, utilizando técnicas estadísticas, requiere de la
comprensión del sistema, y de las consecuencias que un inadecuado
manejo del mismo pueden ocasionar en un país, específicamente la
referente a “las crisis bancarias”.
Las siguientes líneas pretenden dar una breve visión de lo que es el
sistema financiero venezolano en la actualidad, las principales crisis
financieras que ha tenido que enfrentar, las causas asociadas por los
especialistas en el área económica, así como los costos asociados.
El sistema financiero venezolano y las crisis bancarias
El sistema bancario venezolano, según el último informe de la
Superintendencia de Bancos (Sep-2004) está constituido por 51
institucionesf, de las que el 62,73% corresponden a Bancos Universales
y Comerciales (33,33% y 29,4% respectivamente), y el 37,27% a
f Específicamente al 30/9/2004 de las 51 instituciones: 17 corresponden a bancos universales, 15 a bancos comerciales, 4 a Bancos con leyes especiales; 2 Bancos de desarrollo; 5 Bancos de inversión; 2 Bancos Hipotecarios; 1 Arrendadora Financiera, 3 Entidades de Ahorro y Préstamo y 2 Fondos del Mercado Monetario
11
Bancos de Inversión, Desarrollo, Hipotecarios, con leyes especiales,
Arrendadoras Financieras, Entidades de Ahorro y Préstamo y Fondos del
Mercado Monetario. En conjunto estas instituciones manejan sólo en
captaciones del público cerca de 18 mil millones de dólares, es decir,
aproximadamente el 85% de las reservas internacionales del país.
Este apreciable número de instituciones y su volumen de captación a
simple vista deja entrever por un lado, la gran confianza que sienten los
agentes al depositar sus recursos en dichas instituciones y por otro lado,
el papel preponderante que los mismos poseen en el desenvolvimiento
de nuestra economía contemporánea, ya sea por perfilarse como
agentes del ahorro, agentes de colocaciones, creadores de dinero,
expresión del sistema de pagos y/o por su gran influencia en la
estabilidad macroeconómica del país.
La historia del sistema bancario venezolano, sin embargo, revela que
han existido momentos en los cuales un número importante de
intermediarios han padecido lo que se conoce como “crisis bancarias”,
es decir, una situación en la cual varias instituciones enfrenta severos
problemas de solvencia y no puede cumplir con las obligaciones
contraídas frente al público, estas situaciones en su momento generaron
pánico en el público que había confiado sus ahorros a dichas
instituciones. Así, dos grandes crisis han sido registradas en nuestro
país: la crisis de comienzos de los años 60`s y la crisis del año 1994g.
La primera crisis surgió en un marco de desconfianza que se generó en
los años siguientes a la caída de la dictadura de Pérez Jiménez (1958),
la incertidumbre política de tener un nuevo gobierno condujo a una
importante salida de capitales, de manera conjunta se produjo una
fuerte caída en las reservas internacionales, contracción de la
g Entre estas dos crisis hubo varias quiebras individuales de bancos que en su momento fueron importantes en cuanto al volumen de captaciones, sin embargo, para los fines de este ensayo no las consideramos como crisis bancaria.
12
economía, y una afectación adversa del 40% del sistema bancario
nacional, debido a la fuerte liquidación de pasivos a la que debió
enfrentarseh, aumento en la cartera de créditos demorada y en litigio y
una crisis en la balanza de pagos que terminó por dejar a la banca en
una situación de insolvencia para honrar las obligaciones adquiridas con
los acreedores externos.
El balance final de ésta crisis fue: 2 instituciones intervenidas
(específicamente el Banco Táchira y el De Fomento Comercial de
Venezuela); 3 instituciones auxiliadas de manera directa (Banco
Nacional de Descuento, Construcción y Comercial de Maracaibo), 16
instituciones utilizando operaciones de redescuento, como mecanismo
de obtención de liquidez y un alto costo para la nación (Ver cuadro 1).
La segunda crisis bancaria a nivel nacional, se produce a partir de enero
de 1994, luego de que el Banco Latino, segundo banco comercial del la
época, fuera excluido de la Cámara de Compensación, produciéndose
luego, su intervención por parte del Consejo Superior de
Superintendencia de Bancos, quien decidió paralizar sus actividades y
las correspondientes a las empresas relacionadas.
Tal intervención generó pánico en el público, y no sólo el banco
intervenido sino otra gran cantidad de bancos en el sistema debieron
enfrentarse a una rápida liquidación de sus pasivos, lo que produjo una
fuerte crisis de liquidez en el sistema y la necesidad de que FOGADE y el
BCV iniciarán fuertes programas de auxilio financiero a varias
instituciones. La situación del sistema financiero, sin embargo, se fue
agravando a través del tiempo y seis meses más tarde de la
intervención del Banco Latino comienza una ola de intervenciones y
estatización de instituciones por parte del gobierno, así, en junio son
intervenidas ocho instituciones a puerta cerradas (Banco Amazonas,
Bancor, Barinas, Construcción, La Guaira, Maracaibo y Metropolitano h Los depósitos se redujeron un 33% en 1959.
13
(los cuales detentaban al 31 de dic. De 1993 el 20,8% de los depósitos
totales), y la sociedad financiera FiVECA); en el mes de agosto, al
producirse otra fuerte corrida de depósitos son intervenidos a puertas
abiertas dos importantes bancos comerciales que hasta el momento
eran percibidos como sólidos (Consolidado y Venezuela); en el mes de
diciembre, son estatizados los bancos Progreso y República; en el mes
de enero del año 1995 se liquida el grupo latinoamericano progreso (que
poseía entre otros a los Bancos Progreso y República) y en febrero de
este mismo año se estatizan los Bancos Profesional, Ítalo-Venezolano y
Principal (Ver cuadro 2).
Una de las características más relevantes de la crisis del año 94, fue su
rápida propagación en el sistema, tal que al final de la misma el 60% del
sistema bancario resultó afectado adversamente. En palabras de quien
fuera la presidenta del BCV para el momento de la crisis, “el sistema
comenzó a derrumbarse como un castillo de naipes. En un período de
tres semanas, casi un tercio de los bancos venezolanos estaba cerrado,
o bien se mantenían abiertos gracias a un oneroso respaldo financiero
oficial. Casi dos mil millones de dólares salieron del país en ese corto
plazo…dieciocho meses más tarde el gobierno venezolano tenía a su
cargo 58 instituciones financieras quebradas, forzado a controlar
además millares de empresas asociadas. Unos siete millones de
depositantes –más de un tercio de la población –habían sufrido enorme
incertidumbre y, en algunos casos, también una pérdida financiera”i.
Ambas crisis, resultaron dramáticamente costosas para la nación, no
sólo por la tensión que pudieron sentir los ahorristas, sino porque se
calcula el costo de los auxilios destinados para la superación de las
mismas se ubicaron en: 5.4% del PIB en el año 1960; 10.4% en el año
1961; 8.2% en 1962 y 5,4% en 1963j; y en 20% del PIB para la de
i Ruth de Krivoy (2002). Colapso. j Ver García. Lecciones de la una crisis bancaria de Venezuela.
14
1994. Éstas cifras sin embargo, parecieran quedarse cortas, esto si
asociamos las consecuencias derivadas del aumento de la inflación, fuga
de capitales, déficit fiscal, entre otros, que tuvieron que soportar los
nacionales y además porque en fecha reciente y a 11 años de la
segunda crisis, el Fondo de Garantías y Depósitos FOGADE aun continua
reintegrando a los ahorristas parte de los fondos perdidos, esta vez sin
embargo, adicionando intereses y cláusulas de indexación.
Causas de las crisis bancarias:
Dado que las crisis financieras han tenido la particularidad de ser
bastante frecuentesk en las últimas décadas varías han sido las
explicaciones asociadas con su aparición, entre ellas cabe destacar:
• Las crisis bancarias surgen debido a la elevada exposición
que poseen las instituciones bancarias a riesgos muy
diversos y el inadecuado manejo del mismo: "Dichos riesgos
surgen del hecho de que estas instituciones tienen como propósito
mediar entre agentes económicos de flujos financieros excedentes
o de ahorros, y agentes económicos deficitarios que demandan
fondos de crédito para costear sus inversiones o niveles de
consumo. Al hacer de intermediarios entre agentes económicos
demandantes y oferentes de recursos financieros o fondos
prestables, las instituciones bancarias adquieren activos y asumen
pasivos que pueden presentar asimetría de diversa índole, lo que-
en determinadas circunstancias –puede afectar su viabilidad
financiera o solvencia económica como empresas.
Las gerencias bancaria tiene como propósito, precisamente,
k Se estima en el mundo han ocurrido más de 54 crisis bancarias en los últimos 25 años.
15
reducir estos riesgos o asimetrías que pueden presentarse entre
los activos y pasivos de dichas instituciones. Sin embargo, bien
sea por la naturaleza propia de los intermediarios financieros, por
el entorno macroeconómico o los shocks agregados a la economía
(modificaciones importantes en las principales variables
macroeconómicas que afectan la economía en su conjunto), o por
las deficiencias de la propia gerencia, las instituciones bancarias
pueden verse expuestas a diversos tipos de riesgos”l, entre los
que se pueden identificar: el riesgo de liquidez, de mercado,
operacional, y legal entre otros.
Las crisis bancarias surgen debido a que la actividad
bancaria depende de los altibajos del ciclo económico . “Por
la naturaleza de su actividad, los bancos están sometidos a
riesgos estrechamente ligados con la dinámica económica general.
Los bancos emiten pasivos que son exigibles a corto plazo y a su
valor facial, mientras que generan activos de más largo plazo los
cuales son riesgosos. Cuando los clientes bancarios entran en
problemas, el valor del activo cae y el valor del pasivo se
mantiene constante. Por esta razón, es de esperar que las
variables que afectan la marcha de los negocios afecten,
consecuentemente, el patrimonio bancario”.
En este sentido, los estudios realizados han encontrado evidencia
empírica de que: el crecimiento económico está negativamente
relacionado con la probabilidad de una crisis bancaria (Demirguc-
Kunt y Detragiache -1997); las caídas de los términos de
intercambio son frecuentes en períodos previos a las crisis
bancarias (Caprio y Klingebiel -1996); las tasas de cambio real
suelen estar más apreciadas de lo que es usual que en periodos de
l Ver Gustavo García. Lecciones de la crisis bancaria de Venezuela.
16
tranquilidad financiera (Kaminsky y Reinhart -1998).
17
• Las crisis bancarias se presentan debido a problemas a
nivel monetario. Las altas tasas de interés puede ser una señal
de alerta de crisis financiera, pues estas pueden causar problemas
de cartera traduciéndose en problemas bancarios, pueden ser
consecuencia de mayores expectativas de inflación o devaluación
asociadas con síntomas de desorden monetario o pueden ser un
efecto de una política monetaria contractiva. Cabe destacar al
respecto, que la crisis venezolana de 1994, estuvo acompañada de
una política monetaria restrictiva y elevadas tasas de interés.
• Las crisis bancarias surgen porque hay una fase de
expansión del crédito que no puede sostenerse en el
tiempo, así parecen evidenciarlo para América Latina los estudios
de Gavin y Hausmann (1996) y Caprio y Klingebiel (1996) los
cuales indican que la relación entre los pasivos líquidos (M2) y
algunas variables proxis de los activos igualmente líquidos, por
ejemplo las reservas internacionales, son variables potencialmente
útiles para estudiar el desajuste bancario. La idea detrás de tal
afirmación “es que los tenedores del M2 pueden liquidar estos
recursos en cualquier momento y convertirlos a dólares a la tasa
de cambio vigente. Así, cuando la relación entre el stock de
reservas internacionales y el M2 es demasiado grande, y volátil,
hay un síntoma de que se van a presentar problemas en el
sistemam bancario.
Cabe destacar además, que este indicador ha sido examinado en
varios trabajos y ha sido calificado como un exitoso predictor de
crisis bancarias.
m Ver Carrasquilla, Alberto (1998). Causas y efectos de las crisis bancarias en América Latina
18
• Las crisis bancarias surgen porque hay un problema de
agencia (problema del principal-agente) entre los gerentes
de los bancos y los depositantes y de asimetría de
información respecto al ente regulador. Así lo ilustra Farías
(1996), “Los depositantes serían los principales, quienes confían
su dinero a los banqueros (agentes) para que lo coloquen en
inversiones capaces de generar un retorno que permita pagar la
tasa de interés prometida y devolver el capital. El conflicto surge
cuando los intereses del banquero no coinciden con los del
depositante. El banquero puede colocar los depósitos en
inversiones de alto riesgo; donde, si la aventura funciona, obtiene
un alto retorno y es capaz de cumplir su promesa al depositante.
Por el contrario, si no obtiene suficientes recursos, el depositante
no recupera su dinero y el banquero pierde su inversión. En
muchos casos, el capital que el banquero arriesga es pequeño…La
regulación bancaria ha sido un mecanismo utilizado ampliamente
para procurar una gerencia prudente de los bancos. La normativa
bancaria establece políticas de colocación de los depósitos
tendentes a diversificar el riesgo y propiciar retornos consistentes
con la solvencia y liquidez del banco. En términos de la teoría de
la agencia, los depositantes contratan reguladores para que
supervisen al banquero.
Existen por lo menos dos problemas potenciales de este arreglo
institucional. Primero, la observación imperfecta del
comportamiento del banquero genera asimetría de información.
Por más información que se vea obligado a presentar, el banquero
tendrá más y mejor información que los reguladores y habrá
siempre cierta incertidumbre residual. Segundo, la idoneidad del
regulador es un problema técnico, pero también moral; es decir,
no basta que el regulador haya desarrollado destrezas y disponga
19
de recursos suficientes. Debe poseer también suficiente
integridad, para no sucumbir a proposiciones de complicidad del
regulado. En otras palabras, es preciso evitar que el regulador
resulte cautivo del regulado.
Hay hechos que hacen que la regulación y el buen manejo de los
recursos sean tareas más difíciles, entre ellos: la posibilidad de
establecer prácticas contables dudosas (Maquillaje financiero), la
divergencia en el tratamiento de cuentas en los Estados
Financieros entre las diversas instituciones financieras, la
existencia de un seguro gubernamental, independencia en la
prima que pagan los bancos, independientemente del nivel de
riesgo, la existencia de prestamistas de última instancia (Bancos
Centrales), la inexistencia de calificadoras de riesgo privadas.
Las asimetrías de información impiden al depositante evaluar el
riesgo bancario. Los estados financieros son de difícil
interpretación, fácil manipulación y, en consecuencia, escasa
credibilidad. Para disminuir las asimetrías de información y
propiciar que el depositante adopte decisiones informadas, es
conveniente que los bancos sean analizados periódicamente por
instituciones calificadoras de riesgo”n.
Comentario Final:
Realizar un breve recorrido por el mundo de la banca, el riesgo y
las crisis del sistema, ponen de relieve la importancia y pertinencia
del uso de técnicas estadísticas en investigaciones en el campo
financiero. El entendimiento de que las crisis financieras pudieran
ser detectadas a través de sistemas de alerta temprana nos invita
n Ver Hugo Faría (1997). Crisis Bancaria. Un análisis neo-institucional.
20
entonces a trabajar en equipos multidisciplinarios y generar
herramientas prácticas para la supervisión del sector.
Basilea I, fue un llamado para que las autoridades regionales
implantasen en el año 1992, un nivel mínimo de capital requerido
del 8% (en relación a los activos ponderados por riesgo) para las
instituciones bancarias, el sistema venezolano sin embargo,
presentaba un nivel de capitalización del 6.4%. Dos años más
tarde, cuando recién se establece por ley tal requerimiento,
comenzó la segunda gran crisis nacional, no cabe duda que en ese
momento a pesar del llamado internacional estuviéramos
rezagados la adaptación del sistema a las nuevas realidades
económicas.
Hoy el Comité de Basilea II, está sugiriendo un nuevo marco para
la regulación y control del sistema bancario, que debería
implantarse a finales del 2006 o durante el 2007, este nuevo
marco fundamentado en tres pilares: capital mínimo exigible,
examen por parte del supervisor y disciplina del mercado, e
introduce una novedad, referente a que los bancos podrán
emplear en mayor medida sus propias estimaciones de riesgo a
través de sistemas internos, por lo cual cada supervisor nacional
deberá desarrollar una serie de procedimientos de examen al
objeto de garantizar que los sistemas y controles aplicados por los
bancos sirvan para calcular sus verdaderos niveles de capital y de
esta manera conocer la verdadera salud del sistema bancario. Es
apenas un año el que nos dista de tal adaptación internacional, sin
embargo mucho el estudio y aportes que nos queda por hacer a
los investigadores relacionados con la economía, estadística y
finanzas.
21
Cuadro 1:
Bancos intervenidos o auxiliados durante la crisis bancaria venezolana de 1960-1965
Institución Fecha de Intervención
o Auxilio
Táchira 12/6/61 De Fomento Comercial de Venezuela
3/11/65
Nacional de Descuento
13/8/62
Construcción 20/12/62 Comercial de Maracaibo
1964
Fuente: Leonardo Vera y Raúl González (2001).
Cuadro 2:
Bancos Comerciales intervenidos y estatizados, 1994 -1995
Institución Fecha de
intervención o estatización
Latino 16 de enero 1994 Amazonas 14 junio 1994 Bancor 14 junio 1994 Barinas 4 junio 1994 Construcción 14 junio 1994 La Guaira 14 junio 1994 Maracaibo 14 junio 1994 Metropolitano 14 junio 1994 Tequendama 14 junio 1994 Popular 14 junio 1994 Venezuela 9 agosto 1994 Consolidado 25 agosto 1994 Andino 10 noviembre 1994 Progreso 13 diciembre 1994 República 13 diciembre 1994 Ítalo –Venezolano 2 febrero 1995 Principal 2 febrero 1995 Profesional 2 febrero 1995
Fuente: Morela Arocha y Edgar Rojas (1996).
22
Referencias Bibliográficas: Arocha Morela y Edgar Rojas (1996): La crisis bancaria en Venezuela:
Antecedentes, Desarrollo e Implicaciones. Revista Monetaria, vol. XIX, nro. 2,
Cemla, Ciudad de México, abril-junio de 1996, pp 153-200.
Ayala, Roberto. Modelos de Alerta Temprana para crisis financieras. El caso Ecuatoriano:
1994-1997.
Ayesterán y Otros (1994). Crisis y Poder: EL caso del sistema financiero.
Revista Economía, Núm. 11. Instituto de Investigaciones Económicas y
Sociales. ULA, Mérida.
Carrasquilla, Alberto (1998). Causas y efectos de las crisis bancarias en
América Latina. ¿Qué sabemos y que podemos hacer?. Banco Interamericano
de Desarrollo.
De Krivoy, Ruth. Colapso (2002). La crisis bancaria venezolana de 1994. CAF,
Group pf Thirty. Ediciones IESA. 2002
Durán Rodolfo, Mayorga Mauricio y Montero Renato (1999). Propuesta de
Indicadores Macroeconómicos y Financieros de Alerta Temprana para la
Detección de Crisis Bancarias. Banco Central de Costa Rica.
Esteves A., José Tomás (1998) Diccionario de Banca y Finanzas Editorial.
Panapo. Caracas, pp 204-207
Faraco Francisco R. y Romano Suprani M. (1995) La crisis bancaria
Venezolana. Análisis Preliminar. Edit. PANAPO.
Faría, Hugo J (1997). “Riesgo Bancario: Un análisis neoinstitucional”. Debates
IESA. Vol 2, Nro. 3. Enero-Marzo, pp 11-15
Gavín Michael y Ricardo Asuman (1995). The roots of banking crises: The
Macroeconomic Context. Inter American Bank-Group of 30.
García Gustavo (1998). Lecciones de la Crisis Bancaria de Venezuela. Ediciones
IESA.
Kelly, Janet (1997). La banca universal ¿Más riesgo para el sistema bancario?.
Debates IESA. Vol 2, Nro. 3. Enero-Marzo, pp 16-22
Peña, Daniel (2002). Análisis de Datos Multivariantes. Edit. Mc Graw Hill.
España, pp 133-170.
Vera Leonardo y Raúl González. La Evolución Macroeconómica, la salud de los
23
bancos y las crisis financieras: El caso Venezuela. BCV. Ensayos de
Macroeconomía Venezolana. Colección Económica Financiera. Edit. Oswaldo
Rodríguez Sarralde. 2001.pp 284-405.
Sharma, Subhash (1996). Applied Multivariate Techniques John Wiley & Sons.
New York.
24
MODELO DE CLASIFICACIÓN PARAMÉTRICA Y NO PARAMÉTRICA DE LOS FENÓMENOS DE RIESGO BANCARIO EN VENEZUELA
Alexis A. Melo T., Gerardo Colmenares
Resumen
Este proyecto en particular trata con un modelo híbrido en el que se
aprovecha las bondades de la técnica multivariante lineal, conocida
como Análisis Discriminante (AD) y el aprendizaje cualitativo no
supervisado mediante la función base radial, bajo la topología de redes
neuronales para la gestión de riesgo bancario. Este modelo se configura
en dos etapas: la primera, para determinar los patrones de salida
mediante AD y la segunda, para determinar un modelo de pronóstico y a
su vez, de reconocimiento de las agrupaciones de bancos que se
originan en la capa oculta, luego de acceder a los patrones de entrada
que son las razones financieras transformada a una escala,
previamente. El desempeño de este modelo está siendo evaluado
mediante el uso del conjunto construido de datos para tales fines. El
objetivo fundamental de este proyecto, es conjugar ambas técnicas para
obtener un mecanismo automático de clasificación de riesgo en la banca
y la eventual capacidad de generalizar y poder pronosticar el
comportamiento de un banco en particular, dado que se conozca el
patrón de entrada.
Palabras claves: Entrenamiento supervisado, análisis discriminante,
redes neuronales, función base radial, clasificación de riesgo bancario.
Introducción.
El razonamiento cualitativo es una de las habilidades del aprendizaje en
los modelos de redes neuronales y formaliza la capacidad humana de
percibir, analizar, entender y modelar problemas reales. En el caso
25
particular de intentar clasificar el riesgo, el proceso de aprendizaje
cualitativo puede ser crucial debido a que la descripción del valor de los
patrones de entrada puede aparecer en diferentes escalas. Pueden
influir variables tanto numéricas como no numéricas, tal como podría
ocurrir en el aprendizaje humano.
Eventualmente esta técnica ha sido empleada para pronóstico de riesgo
de crédito cuando son clasificados los bonos de una compañía particular.
(Rovira et al.). Indistintamente se han considerado como variables
influyentes tanto variables categóricas como variables cuantitativas
ajustadas a una escala.
Un caso similar ocurre con la investigación que se desarrolla en este
proyecto. El empleo de las razones financieras como patrones de
entrada y los patrones de salida por cada valor observado como patrón
de entrada estimado mediante la clasificación obtenida por medio de un
procedimiento de análisis discriminante, determina el dominio del
problema.
Las redes neuronales basadas en funciones de base radial (RBF)
contribuyen a emular este tipo de condición de los datos. El desempeño
de clasificación interna en grupos que podría realizar el modelo RBF en
su capa oculta de neuronas, estaría inicialmente influenciado por la
función empleada capaz de atraer patrones a un grupo determinado y
consecuentemente la presentación de los datos descritos en los patrones
de entrada y salida. Algunos estudios enfatizan que mientras sea más
cualitativa la información, mejor desempeño tendría el modelo. (Rovira
et al., 2002). Por otro lado, (Atiya, 2001) señala en su revisión profusa
que en general las redes neuronales han mostrado mejor desempeño en
el pronóstico en el dominio de problemas financieros. Sin embargo, el
enfoque presentado en este proyecto pareciera ser un enfoque
emergente al proponerse la capacidad del modelo híbrido de: a)
pronosticar una situación en la banca comercial para un banco
26
determinado, b) agrupar la banca comercial de acuerdo a las similitudes
en los patrones de entrada, c) combinar ambas técnicas, AD y RBF, en
el proceso de preprocesamiento de datos, proceso de aprendizaje de la
red y capacidad de pronóstico.
En las secciones que siguen, se describirán brevemente las técnicas que
se emplearán y finalmente el modelo que se esta siguiendo para este
proyecto en particular.
Análisis Discriminante aplicado al riesgo bancario
Teniéndose un amplio conjunto de datos p-dimensionales el problema
del Análisis Discriminante se reduce a la habilidad que se tiene,
mediante un modelo lineal, de poder clasificar este conjunto de datos de
entrada con sus variables definidas, en función de una regla de
discriminación o de clasificación predeterminada.
Reforzando la idea anterior (Sharma, 1996) resumió la aplicabilidad de
este método en los siguientes tres objetivos:
Identificar un conjunto de variables que mejor discrimine o separe
entre los grupos.
Identificar un nuevo eje Z, tal que, la nueva variable Z, dada por
la proyección de las variables originales sobre este eje, provea la
máxima separación o discriminación entre 2 grupos, vale decir, un
hiperplano que permita la máxima separación entre grupos para el
caso multidimensional.
Clasificar futuras observaciones dentro de uno de los grupos. Es
decir su capacidad de pronóstico.
El Análisis Discriminante entonces, por lo anterior, entra entre las
técnicas definidas como Clasificación Supervisada, pues a partir de una
muestra de observaciones previamente bien clasificados se permite la
clasificación de nuevos datos adicionales.
27
Este método es de amplia aplicación en diversos campos, y para el área
financiera tiene especial aplicabilidad en el análisis del credit-scoring y
del estudio del problema de la turbulencia financiera en el sistema
bancario. (Altman et al, 1994); (Atiya, 2001); (Foster et al, 1999).
El Análisis Discriminante Clásico se conoce como el Método de
Discriminación de Fisher en honor a quien inicialmente lo desarrollo
partiendo de una relación lineal de discriminación. Esta relación de
discriminación lineal viene dada por la siguiente expresión Z=X´γ,
donde X representa el vector de variables observadas, γ representa los
pesos de la función discriminante y Z es la función discriminante. De lo
anterior se describe que Z resultará como una variable dependiente
indicadora y no numérica.
La variable indicadora puede tomar dos o más valores, no obstante, el
caso más común es el que emplea dos valores: cero y uno, en este caso
se conoce como variable dicotómica.
Por ejemplo, la variable Z podría ser una variable indicadora, que
denota la ocurrencia o no de un evento.
En este contexto, el Análisis Discriminante se emplea para determinar
cuál o cuáles variables contribuyen a discriminar entre dos o más grupos
que se observan en la práctica.
En resumen, la idea básica que subyace en el Análisis Discriminante es
determinar si unos grupos difieren en función de la media de una
variable, y emplear luego esa variable para predecir la pertenencia de
una nueva observación a determinado grupo.
El problema del Análisis Discriminante, visto desde el punto de vista del
análisis de variancia, consiste en responder a la pregunta de si dos o
más grupos son significativamente diferentes uno de otro respecto a la
media de una variable en particular.
28
Debe tenerse presente que si la media de una variable es
significativamente diferente en varios grupos, puede decirse que esta
variable discrimina entre grupos.
Al igual que en el caso de conglomerados, análisis factorial y de
correlación canónica, el Análisis Discriminante realiza diferentes
desgloses de las variancias de un conjunto de datos para someterlos a
una serie de pruebas estadísticas y determinar el grado de asociación
entre esas variancias y, por tanto, entre las variables. De esta forma, la
mejor discriminación se tiene al maximizar la relación
el_grupo)_dentro_dVar(upos)_entre_grVar(
ZZ
En el caso de una única variable explicativa, la prueba final de
significancia de si esta variable discrimina o no entre grupos es una
prueba F, que es básicamente una razón de las variancias entre grupos
sobre el promedio de la variancia dentro de los grupos. Si la variancia
entre grupos es significativamente mayor, deberá haber diferencias
significativas entre las medias.
Para el caso de más de una variable, se busca determinar cuál o cuáles
de ellas contribuyen a la discriminación entre grupos. En este caso, se
tiene una matriz de variancias y covariancias. Puede compararse las
matrices con una prueba F multivariable, para determinar si hay o no
diferencias significativas en las medias entre grupos.
En el caso particular de función discriminante para dos grupos, tal
función puede verse como una caso de análisis de regresión lineal
múltiple. Si se codifican los dos grupos como 1 y 2, y se emplea tal
variable como dependiente en un análisis de regresión lineal múltiple,
pueden obtenerse resultados similares a los que se obtendrían de un
análisis discriminante. En general, en el caso de dos grupos se ajusta
una ecuación lineal del tipo
GRUPO=a+b1x1+b2x2+……..+bmxm,
29
donde a es una constante y b1 a bm son coeficientes de regresión. La
interpretación de estos resultados es similar a la de un modelo de
regresión múltiple. Los más significativos son lo que contribuyen más a
la predicción de pertenencia a un grupo.
Para efectuar el análisis, es posible emplear diferentes procedimientos,
como por ejemplo:
Análisis discriminante “Stepwise”: probablemente la forma más
común de aplicación es incluir muchas medidas en el estudio, para
determinar las que discriminan entre grupos. Visto de otra forma,
se desea construir un modelo de cómo se puede lograr predecir de
la mejor forma a cuál grupo pertenece una observación o caso
particular.
Análisis discriminante “Stepwise” hacia adelante: la idea es
construir un modelo paso a paso, revisando todas las variables y
evaluando cuál puede contribuir más a la discriminación entre
grupos. Esta variable podrá ser incluida en el modelo.
Análisis discriminante “Stepwise” hacia atrás: es posible incluir
primero todas las posibles variables en el modelo, y luego en cada
paso, eliminar la variable que contribuye menos a la predicción de
la pertenencia a un grupo. Como resultado de un modelo de
Función Discriminante exitoso, deben mantenerse en él las
variables significativas para discriminar.
Cuando es posible identificar más de dos grupos, puede estimarse más
de una función discriminante similares a la presentada anteriormente.
Por ejemplo, cuando se tienen tres grupos, puede estimarse: a) una
función para discriminar entre grupo 1 y grupos 2 y 3 combinados, y b)
otra función para discriminar entre grupo 2 y grupo 3.
En la práctica, cuando se realiza un análisis discriminante entre varios
grupos, no debe especificarse cómo combinar los grupos para formar las
diferentes funciones. Los programas computacionales automáticamente
30
las conforman de manera que la primera es la que ofrece la mayor
discriminación como un todo entre grupos, la segunda provee una
menor y así sucesivamente. Las funciones son independientes u
ortogonales, esto es, su contribución a la discriminación entre grupos no
se sobrepone.
Puede probarse el número de variables que agregan significancia a la
discriminación entre grupos. Solo aquellas que sean estadísticamente
significativas deben ser usadas para interpretar, las no significativas
deben ignorarse.
En resumen, cuando se interpretan funciones discriminantes múltiples,
que surgen del análisis con más de dos grupos y más de una variable,
se puede probar primero la significancia estadística de las diferentes
funciones, y considerar solo las significativas para las siguientes
pruebas. Luego, se observan los coeficientes b estandarizados
(expresión anterior) para cada variable y para cada función significativa.
Cuantos mayores sean, más alta es la contribución a la discriminación
especificada por la respectiva función. Finalmente, pueden verse las
medias para las funciones discriminantes significativas para determinar
entre cuáles grupos discrimina la respectiva función.
Es importante tener presente unos supuestos implícitos a este tipo de
análisis:
Distribución normal: se asume que los datos para las variables
representan una muestra proveniente de una distribución normal
multivariable. No obstante, el no cumplimiento de este supuesto
no es problema para el análisis.
Homogeneidad de variancias y covariancias: se supone que las
matrices de variancias y covariancias son homogéneas entre
grupos; de nuevo, si no se cumple tampoco se generan
problemas.
31
Correlaciones entre medias y variancias: el principal obstáculo
para la validez de las pruebas de significancia se presenta cuando
la media de las variables entre grupos están correlacionadas con
las variancias. Si hay gran variabilidad en un grupo con alta media
en algunas variables, entonces esas medias grandes no son
confiables. Sin embargo, la prueba de significancia global está
basada en variancias ponderadas, es decir en variancias promedio
entre todos los grupos. La prueba de significancia de las medias
relativamente grandes (con grandes variancias) estará basada en
variancias ponderadas relativamente menores, resultando
erróneamente en significancia estadística. Esto ocurre cuando un
grupo tiene unos pocos valores extremos que afectan mucho la
media y aumentan la variabilidad.
Variables no redundantes: se supone que las variables empleadas
para discriminar entre grupos no son completamente redundantes,
por ejemplo que una variable no sea la suma de otras dos que
también están en el modelo.
En la figura siguiente se puede observar un esquema funcional del
preprocesamiento de los datos financieros de la banca comercial
basados en la aplicabilidad del análisis discriminante. Los valores
obtenidos de la agrupación en dos grupos de la banca comercial de
acuerdo a sus razones financieras, será empleado como patrones de
salida en la construcción del modelo de red neuronal no supervisado
usando función de base radial. El propósito de esta construcción de
modelo es el lograr un modelo con un alto grado de aprendizaje que se
pueda generalizar a todo el dominio del problema real bajo el mismo
contexto de las razones financieras empleadas para el entrenamiento. El
resultado de este buen desempeño es un mecanismo de pronóstico en el
32
cual un nuevo ejemplo no visto por la red en el tiempo pueda ser
separado en uno de los grupos con un alto grado de aceptación.
Figura 1. Discriminación de los bancos en dos grupos
33
Las Redes Neuronales Artificiales: su competencia como técnica
de clasificación mediante función de base radial.
Una red RBF está conformada de tres capas: a) la capa de entrada que
sirve para los ejemplos o patrones de entrenamiento y prueba, b) la
capa oculta completamente interconectada entre todos sus nodos con la
capa de entrada y activada a través de la función radial (gaussiana) y,
c) la capa de salida, también completamente interconectada a la capa
oculta y activada a través de una función lineal continua. Así, una red
RBF tiene como objetivo el de ejecutar una correspondencia no lineal
entre los patrones de entrenamiento que definen el espacio de entrada
al espacio oculto definido por la capa oculta y una correspondencia
lineal desde este espacio al espacio de salida. Es decir definir a la salida
una superficie que describa las entradas.
El entrenamiento no supervisado, a diferencia de la red usando
backpropagation (RN-RP), es solamente hacia delante. De este modo, la
salida z de una red RBF, en general, está influenciada por una
transformación no lineal originada en la capa oculta a través de la
función radial y una lineal en la capa de salida a través de la función
lineal continua.
1x
2x
nx
1−nx
•
•
•
•
z1
-1
FunciónGaussiana
FunciónLinealContinua
Figura 2. Arquitectura típica de una red neuronal con funciones de base
radial
34
En la topología particular de una RBF se distinguen los nodos ocultos
que contienen una función base radial o función gaussiana, la cual tiene
como parámetros a un centro y un ancho. El centro es único para cada
función radial involucrada en la capa oculta, y por otro lado, el ancho
que identifica la amplitud de la campana de gauss originada por la
función radial, es decir, la desviación estándar de la función radial.
Algunos autores (Broomhead and Lowe, 1988) consideran a este ancho
como un valor constante para cada una de las funciones radiales
consideradas en la capa oculta y de este modo, contribuyendo a
simplificar los pasos de construcción del modelo de entrenamiento de la
red.
El primer cálculo efectuado en la capa oculta es hallar para cada nodo
de la capa oculta la distancia radial (distancia euclidiana) d entre el
vector de entrada x y el centro de gravedad c de ese mismo nodo, para
cada una de las n observaciones. Es decir:
2)(.......2)22(2)11( ncnxcxcxd −++−+−=−= cx
Este valor d es calculado para cada nodo oculto y es un componente de
la entrada para activar la función radial G(•) correspondiente a cada
nodo. La función radial G(•) más comúnmente empleada es exp(-r2),
donde r es el contenido evaluado en cada nodo de la capa oculta. En
este caso particular, este contenido es la distancia euclidiana d. De ahí
que la expresión anterior sería exp(-d2).
Una de las derivaciones del modelo RBF es emplear el ancho (desviación
estándar) para activar la función G(•). En este caso se estaría
trabajando con algo como exp(-d2/a), donde a es el ancho para ese
nodo oculto.
Entre la capa oculta y la capa de salida se derivan un conjunto de pesos
w que se verían afectados de acuerdo al algoritmo de aprendizaje. En
35
este caso particular. sería la combinación lineal entre los pesos y la
resultante de cada función radial para determinar la salida z.
1x
2x
nx
1−nx
•
•
•
•
z1
-1
Función
Gaussiana Gi(•)
FunciónLinealContinua
( )∑ − 2ii cx
( )•∑ iiGw
1w
2w
1−nw
nw
Figura 3. Componentes de una RBF: función de activación en ambas
capas, pesos sinápticos
En definitiva, seria ( )•∑= Giwz , donde G(•) es la salida de la capa
oculta y se corresponde con la función radial aplicada a la distancia
euclidiana en cada una de las unidades ocultas.
Del resultado de este tipo de entrenamiento podemos observar que:
Los valores de entrada se recomiendan que previamente sean de
algún modo transformados a una escala.
Debido a que esta superficie es desconocida, se acude un proceso de
entrenamiento usando ejemplos representativos tanto para la
entrada como para la salida. Es decir, muestras que incluyan
ejemplos de todo el dominio del problema.
En la capa oculta, en la medida que los valores de entrada se
parezcan más a un centro su distancia tenderá a cero y de este modo
36
la función gaussiana se dispararía a las vecindades de uno. Por otro
lado, en la medida que los valores de entrada no se parezcan a su
centro la distancia será mayor y la función radial parecería tender a
cero. Este proceso es una clasificación no lineal de las entradas.
En la capa de salida del modelo RBF, los valores obtenidos en las
salidas de la capa oculta serían transformados por la función lineal
que permite aproximar los valores z a los valores deseados, mediante
la combinación lineal que se sucede en esta capa entre sus pesos y el
resultado de aplicar la función radial. Es decir, ( )•∑= Giwz .
El tiempo de entrenamiento es substancialmente inferior al requerido
por otros algoritmos. Es una pasada hacia adelante en la mayoría de
los casos. La diferencia la establece si se incorpora en la salida del
modelo de entrenamiento, una supervisión a través del control del
error que se produce entre los valores calculados y los observados,
conduciendo a una retropropagación del error.
De acuerdo a este concepto, la red RBF ha originado variantes de cálculo
como producto fundamentalmente de las siguientes limitaciones que se
han presentado en algunos casos:
de no conocer los centros (a veces el ancho) para cada función radial,
de situaciones de singularidad presentes en la implementación del
algoritmo con problema de dimensionalidad;
de un gran volumen de entradas haciendo inmanejable la aplicación
del algoritmo. Se presentan problemas de regularización (Haykin,
1995).
La función que puede describir sigue la siguiente forma:
⎟⎠⎞
⎜⎝⎛ −∑= ixxx GiwF
N
1)(
37
donde la función F(x) es una combinación lineal entre la función no
lineal G(•) y los pesos. G(•) es de la forma exp(||xj-xi|) y la expresión
anterior, en forma matricial sería Gw = z.
Cada elemento gj,i = g(||xj-xi||), j,i=1….N
z = [ z1, z2 z3, ……, zN]T
w = [w1, w2, w3, …..,wN]T
Provistos que todas las observaciones son distintas, entonces G se
podría decir que es positiva definida y por lo tanto los pesos podrían ser
calculados mediante la inversa de G. Es decir:
w = G-1z
Sin embargo, se puede correr el riesgo de que la inversa de la matriz de
interpolación G está próxima a ser singular. En este caso se procedería
mediante la teoría de la regularización para perturbar la matriz
mediante G = G + λI. (Haykin, 1995)
De esta manera sería un aprendizaje directo, provocando cambio a los
pesos que están ubicados entre la capa oculta y la capa de salida.
La aplicabilidad de ambas técnicas, análisis discriminante y redes
neuronales de funciones de base radial, describen un modelo híbrido que
incluye los datos construidos en una escala homogénea como patrones
de entrada definidos por las razones financieras, y el resultado de
utilizar el análisis discriminante para obtener los patrones de salida. La
figura 4 describe funcionalmente la aplicabilidad de la RBF y en la figura
1 la construcción de los patrones de salida. Los patrones de entrada se
construyen transformando las razones financieras en un nuevo conjunto
de datos discretizados, tal que se pueda unificar las escalas de medida.
Se aplicará el método de discretización supervisado CAIM (Class-
Attribute Interdependence Maximization) (Ching et al., 1995); (Kurgan
et al., 2001). CAIM es uno de los más reciente métodos de
discretización dando muy buenos resultados en un tiempo de cómputo
bastante reducido. Este método divide el rango de la variable, en este
38
caso la razón financiera, en un número muy pequeño de intervalos que
podría se encontrados automáticamente. Si la escala de intervalos se
desea dejar fija, entonces se puede aplicar una variante del método
(Campos et al., 2004).
X1 X2 X3 …... Xp
B1 B2 B3…..Bn
Eje
mp
los
de e
ntr
ad
a
Banco 1
Banco 2
.
Banco n
Razones Financieras
Banco 1
Banco 1
Banco 1
1986
al 2
004
Nueva variable
Grupo 1
Grupo 2
. .
Grupo n
AGRUPACIÓN DE LA BANCA
Z
ZFunción Gausiana
CLASIFICACIÓN DEL RIESGO
Banco 1
Banco 2
.
Banco n
Banco 1
Z
Banco 1
Banco 1
1986
al 2
004
Eje
mp
los
de s
ali
da
DATOS ORIGINALES DE LOS BANCOS
Figura 4. Pronóstico de riesgo clasificado en categorías
39
Referencias.
Agresti, A. (1990). Categorical Data Analysis. John Wiley and Sons Ltd.,
New York.
Amir F. Atiya, Senior Member, IEEE. (2001),Bankruptcy Prediction for
Credit Risk Using Neural Networks: A Survey and New Results. IEEE
TRANSACTIONS ON NEURAL NETWORKS, VOL. 12, NO. 4, JULY 2001
Broomhead, D. S., and D. Lowe, (1988). Multivariable functional
Interpolation and adaptive networks. Complex Systems, vol. 2, pp. 321–
355.
Campos, R., Ruiz, F., Agell, N and Angulo, C. (2004). Financial Credit
Risk Measurement Prediction Using Innovative Soft-computing
Techniques. International Conference on Computational Finance And its
Applications. Bologna, Italy, 2004.
Ching, J.Y., Wong, A.K.C. and Chan, K.C.C. (1995). Class-Dependent
Discretization for Inductive Learning from Continuous and Mixed Mode
Data, IEEE Transactionson Pattern Analysis and Machine Intelligence, 17
(7), pp. 641-651, 1995.
Colmenares G. and Pérez R. (1999). A Reliable Method to Reduce
Observations and Variables when Building Neural Network Models.
CAIP'99. San José. Costa Rica.
Hair, J., Anderson, R., Tatham, R. and Black, W. (1998). Multivariate
Data Analysis. Prentice Hall, 5th Ed.
Haykin Simon. (1995). Neural Networks. A comprehensive foundation.
Macmillan College Publishing Company, Inc.
Haykin Simon. (1998). Feedforward: Neural Networks: An Introduction.
Chapter 1. Manuscrito
Kurgan, L. and Cios, K.J. (2001). Discretization Algorithm that Uses
Class-Attribute Interdependence Maximization, Proc. of the 2001
40
International Conference on Artificial Intelligence (ICAI-2001): Las
Vegas, pp.980-987, 2001
Muñoz S., Evelyn. (1998). La técnica de Análisis Discriminante: Una
aplicación para el área bancaria. Banco Central de Costa Rica, DIE-NT-
03-98
Sharma Subash. (1996). Applied Multivariate Techniques. John Wiley.
USA
Xari Rovira, Núria Agell, Mónica Sánchez, Francesc Prats and Xavier
Parra. (2002). An Approach to Qualitative Radial Basis Function
Networks over Orders of Magnitude. This work was supported by the
MCyT (Spanish Ministry of Science and Technology) MERITO project
(TIC2002-04371-C02).
Wang Z. Xue (1999). Data Mining and Knowledge Discovery for Process
Monitoring and Control. Springer-Verlag. London.
41
MODELO DE IDENTIFICACIÓN DE INDICADORES DE GESTIÓN DE RIESGO FINANCIERO MEDIANTE LA REDUCCIÓN DE VARIABLES
O RAZONES FINANCIERAS
Ruth Guillén, Alexis Melo Resumen
Una opción en las técnicas multivariantes es la de ayudar a comprender
el dominio de un problema real mediante características resaltantes en
ese mismo dominio que consolidan la información dispersa en los
fenómenos observados, bien sea individual o conjuntamente. Mediante
Análisis de Componentes Principales (ACP) se puede disminuir el efecto
de redundancia o dispersión de los fenómenos originales observados a
través de nuevas características con poca pérdida de la información
aportada originalmente. Esta reducción de variables además de crear
nuevas características para el análisis, permite el desarrollo de modelos
de pronóstico en los que el trabajo de cómputo se disminuye
notablemente. Algunos trabajos han demostrado que produce excelente
resultado y más aún, un excelente desempeño de pronóstico cuando
estas nuevas características son los patrones de entrenamiento de los
modelos de redes neuronales mediante el uso del algoritmo no lineal de
retropropagación del error (RN-RP). Adicionalmente, y como aporte
particular de esta investigación, se está incorporando como patrones de
salida de este modelo híbrido (ACP y RN-RP), los valores obtenidos en
una clasificación previa realizada mediante análisis discriminante (AD).
El preprocesamiento de los datos se complementa con la redefinición del
conjunto de entrada que son las razones financieras transformadas a
unas características de origen totalmente nuevo y de variables
totalmente independientes, y un conjunto de salida con valores
cualitativos. El desempeño de este modelo está siendo evaluado
mediante el uso del conjunto ce datos construido para tales fines. El
logro fundamental de esta iniciativa es la de vincular ambas técnicas
42
para obtener un mecanismo automático de pronóstico de riesgo y la
eventual capacidad de generalizar el comportamiento de un banco en
particular en un período dado
Palabras claves: Entrenamiento supervisado, análisis de componentes
principales, retropropagación del error, riesgo financiero.
Introducción.
El reconocimiento de patrones en un dominio de problema real, desde
un punto de vista estadístico, se refiere fundamentalmente a la
selección o extracción de características en la fuente original de datos a
través de las variables observadas. Esta selección se rota a un espacio
donde el conjunto de los datos que describe todas las características
observadas, es transformado a uno nuevo donde se conserva la misma
dimensión del espacio original pero provee de una nueva información
más vinculada al conjunto original de características descritas por los
datos. Sin embargo, de acuerdo al tipo de medición que se haga de las
variables observadas, puede variar la utilidad de las técnicas que
permiten este tipo de transformación. En los métodos multivariantes,
Análisis Discriminante (AD), Análisis de Correspondencia (AC) y Análisis
de Componentes Principales (ACP) son las técnicas más comúnmente
utilizadas, pero cada una de ellas requieren de un diferente tipo de
medición de las características de las variables. Tal es el caso de AD y
su fuente de datos lo conforman variables de tipo categórico o discreto,
ACP y variables continuas o cuantitativas y AC con una mezcla de
ambos tipos de medición. (Sharma, 1996).
En este caso particular, además de aprovechar las bondades de la
técnica ACP para preparar nueva información mediante la interacción de
las variables originales por una suerte de combinación lineal entre ellas,
explicando en su contenido integral nueva información latente, se hace
43
énfasis en el significado de reducir significativamente las variables
originales a esas variables latentes sin sacrificar mayor cantidad de
información. En este contexto y en el caso de lo que se investiga, se
realizó una buena contribución con un muy excelente resultado de
pronóstico de riesgo de quiebra desde el punto de vista estadístico. La
interpretación de las variables latentes en el nuevo espacio ortogonal
permitió de manera descriptiva identificar individuos (banca comercial)
propensos a la quiebra como consecuencia de analizar los resultados de
los componentes principales obtenidos como variables latentes. Sin
embargo, se corre con el riesgo de no poder explicar el dominio original
del problema debido a la pérdida de porciones de la varianza explicada
presente en los datos originales, como consecuencia de la presencia de
variables originales con un alto grado de interdependencia y que no
representan un aporte de información significativo. (Ayesterán, et al.,
1996)
En este estudio se aprovecha otra utilidad práctica de la técnica ACP. La
reducción de las variables originales a un nuevo conjunto tal que sean
las variables explicativas o patrones de entrada, en los modelos de
pronósticos, tales como Regresión Lineal Múltiple (RLM) y las redes
neuronales. Hay varias experiencias que han demostrado un mejor y
eficiente desempeño de los modelos usando estas variables reducidas al
disminuir el tiempo de cómputo y el de mantener o mejorar la capacidad
de pronóstico.
Atiya hace un buen inventario de resultados evaluativos de la aplicación
de este tipo de técnicas, e inclusive algunas no paramétricas, en el
análisis del riesgo bancario, fundamentalmente en clasificación y
predicción. (Atiya, 2001). Las técnicas multivariantes, en las mayorías
de los estudios revisados, fueron aplicadas a grupos de variables
asociadas a las razones financieras, y a su vez, comparadas con
métodos numéricos emergentes demostrando su utilidad.
44
ACP, en este estudio, actuará como agente preprocesador de datos, al
ser utilizado como método de reducción de variables para conformar el
conjunto definitivo de patrones de entrada para el modelo de pronóstico.
Algunos estudios realizados de reducción de variables, tales como
Kramer, 1992; Tan et al., 1995, Colmenares, 2004, han demostrado que
este mecanismo es de muy alta utilidad para la conformación de los
patrones de entrenamiento y prueba usados en los modelos de redes
neuronales, al reducir en un alto grado el nivel de complejidad de la
arquitectura y construcción de estos modelos. Por ejemplo en Tan se
puede observar que mediante un algoritmo no lineal donde combina ACP
y redes neuronales, los ejemplos originales son reducidos a nuevas
características que pueden ser valores de entrada para la preparación de
modelos de redes neuronales. En Colmenares, por otro lado, mediante
combinaciones de técnicas estadísticas de muestreo y ACP, se pueden
lograr conjuntos muy reducidos de datos, altamente representativos del
dominio del problema, que resultan ser eficientes ejemplos de entrada
para los modelos de redes neuronales. Lo importante a destacar en
estos casos, inclusive en Kramer, es el de incorporar la no linealidad
inherente a los problemas reales introduciendo el concepto de redes
autoasociativas para realizar reducción de variables en el mismo espíritu
que lo hace ACP. De hecho, Kramer desarrolla un algoritmo totalmente
no paramétrico en el que se reducen las variables originales a un nuevo
conjunto, incorporando tácitamente el concepto de curvas principales.
Este método es un proceso de transformación a nuevos atributos o
componentes principales no lineales, que a su vez son replicados y
transformados nuevamente a representaciones muy parecidas a las que
los originaron, garantizando así una aceptable sumarización de las
características originales en nuevos conjuntos sustancialmente
reducidos, pero que logran describir el contenido informativo original.
45
Por otro lado, los patrones de salida, similar a los que conforman la
entrada, son estimados mediante análisis discriminante, indicando en
cada patrón, la característica cualitativa de riesgo dependiente del
patrón de entrada que lo origina. Este preprocesamiento de los fuente
original de datos permite además de construir un modelo de redes
neuronales con funciones de base radial (Melo et al.), ser fuente de
datos de salida para el conjunto de modelos de red neuronales con
funciones logísticas que se aplicará en este estudio. Es decir, un modelo
híbrido conformado por ACP y redes neuronales usando el algoritmo de
retropropagación del error (RN-RP).
En las siguientes secciones se describen ambas técnicas, y el empleo de
ellas como componentes del modelo que se construye para el pronóstico
de riesgo bancario.
ACP aplicado al riesgo bancario.
La selección o extracción de características en la serie de datos está
vinculada a procesos numéricos donde el espacio original sufre una
transformación resaltando un nuevo conjunto efectivo y reducido de
características que retienen la mayor cantidad de información contenida
internamente en los serie de datos originales. Es decir, hay una
reducción de dimensionalidad del espacio de los datos originales. Esto es
básicamente el propósito de esta técnica donde la varianza total juega
un papel importante en esta técnica.
Esta metodología de reducción de variables ha mostrado excelentes
resultados. El beneficio alcanzado reutilizando fuentes históricas de
datos, es el de permitir la disminución del tiempo de cómputo empleado
en la construcción y uso de los modelos debido al empleo de las técnicas
de preprocesamiento que seleccionan confiablemente la menor cantidad
de observaciones y variables posible. Por ejemplo, el método
Stratified/PCA (Colmenares, 2004), como técnica de preprocesamiento,
46
puede reducir una matriz original de observaciones y variables a un
subconjunto apreciablemente menor que sus originales con un nivel de
confiablidad y consistencia bastante altos como para poder ser aplicados
sobre fuentes históricas de datos. Adicionalmente, estos conjuntos
reducidos de datos empleados en la construcción de modelos no lineales
usando RNA, han mostrado tener similar capacidad de predicción y/o
clasificación que los construidos con el conjunto total de los datos
originales. De igual modo, mostraron ser mucho más consistente en sus
resultados después de varias réplicas con diferentes conjuntos reducidos
de datos. (Dong et al. 1995), (Tan et al. 1995).
1986
al 2
004
1986
al 2
004
Figura 1. ACP como técnica de reducción de variables
47
Enfoque analítico de la reducción de las variables originales Sea X, una matriz de orden p-dimensional conformada por p variables
con N observaciones para cada variable.
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
= .
..............
..
..
..
321
3333231
2232221
1131211
NpNNN
p
p
p
xxxx
xxxxxxxxxxxx
X
Mediante Componentes Principales (ACP), el conjunto total de p
variables podría ser reducido a un nuevo conjunto enteramente
independiente de nuevas variables (algunas veces conocidas como
variables latentes) expresada en un matriz resultante Z de orden k.
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎥
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎢
=
NkNNN
k
k
k
zzzz
zzzzzzzzzzzz
..............
..
..
..
321
3333231
2232221
1131211
Z
El nuevo conjunto de variables define un espacio k-dimensional mucho
más reducido que el original donde k<<p, del cual se le puede hacer
algunas consideraciones:
Los valores entre sí, de las nuevas variables presentes en la matriz Z
no están correlacionados. Es decir las nuevas variables son
completamente independientes.
A pesar de que la dimensión de la matriz Z es igual a la de la matriz
X, su utilidad práctica preferiblemente se reduce a una matriz de
dimensión mucho menor (k<<p).
La entrada principal al ACP es la matriz de covarianza Σ . Sin
embargo, las variables originales podrían ser estandarizadas (media
48
cero y varianza uno) para eliminar el efecto de la varianza relativa de
las variables originales. En este caso, se puede sustituir como
entrada principal a ACP a la matriz de correlación R por la matriz de
covarianza. Esta sustitución es útil para eliminar las altas varianzas
generadas por las variables involucradas con diferente escala en las
unidades de medida.
La traza de la matriz de correlación es igual a la varianza total de las
variables transformadas.
Los autovectores de la matriz de covarianza o de correlación definen
los nuevos ejes en el espacio k-dimensional.
La cantidad de componentes principales es igual a la cantidad de
variables originales consideradas en el ACP. Es decir, son p
componentes.
Cada zj es una variable transformada de las xi(s) variables
originales. Siendo i=1,2,3….,p. Estas nuevas variables contienen los
valores de las variables transformadas.
ACP captura solamente linealidad entre las variables. Por eso se le
conoce como una técnica que transforma las variables originales
mediante un método de combinación lineal. Es decir las zi son
combinación lineal de los componentes y las variables originales xi.
Los primeros componentes obtenidos mediante ACP explican la
mayor cantidad de la varianza total de las variables originales. Es
decir, agrupa la mayor cantidad de información que puedan
suministrar las variables originales.
Habiendo definido X y Z, con p variables (originales y transformadas) y
N observaciones, consideremos adicionalmente la matriz de covarianza
de la matriz X; entonces ACP permite calcular mediante la matriz Σ Σ
un nuevo conjunto de p variables no correlacionadas (z) tal que ellas
sean combinación lineal de las variables originales.
49
De este modo, para cualquier observación i en X dado por
[ ]p321 x..xxx , existe una función lineal Z = a’ix, para todo
i=1…,N. Es decir,
pip3i32i21i1j xa........xaxaxaz ++++= , j=1,…,P, i=1,…N, donde:
a’i es un vector transpuesto de pesos o parámetros del i-ésimo
componente principal.
aj es un vector de pesos o parámetros del el j-ésimo componente
principal o autovector de Σ para formar la combinación lineal de las p
variables originales.
aj tiene que ser ortogonal y ortonormal. Es decir a’iaj = 0 y a’iai = 1.
zj se corresponde con los valores nuevos de las variables originales.
La varianza del j-ésimo componente es
V(zj) = var(a’ix) = a’iΣa’i, para todo j=1,…,P, i=1,…N.
Las varianzas resultantes para cada componente son decrecientes y en
estricto orden: V(z1) > V(z2) > V(z3) >… V(zp). Su suma representa la
variación total de las variables originales.
En general, el objetivo es entonces el de encontrar los componentes
principales aj tal que a’jΣaj es un máximo sujeto a que a’jaj = 1, donde
j=1,…P. Usando Lagrange para el j-ésimo componente, se tiene:
L = a’jΣaj – λj(a’jaj – 1),
λj es el multiplicador y la parcial con respecto al componente es
jjjj
a2λa2aL
−Σ=∂∂
.
Igualamos a cero la expresión anterior y podemos calcular los valores de
λj mediante ( ) 0aIλΣ jj =− , donde IλΣ j− =0 para que aj ≠ 0. Existen p
raíces para el polinomio. Estas raíces son los autovalores de y son
λ
Σ
1>λ2>λ3>….>λp. Cada valor de λj permite el cálculo de su
correspondiente autovector aj mediante ( ) 0aIλΣ jj =− .
50
De ahí, el primer autovector a1 le corresponde el primer autovalor λ1, el
cual s obtiene mediante ( ) 0aIλΣ jj =− y la condición de ortonormalidad
a’1 a1 = 1; a su vez a1 es el autovector correspondiente a la varianza
más grande de Σ , 1111 λΣaax)avar( =′=′ , y xaz 11 ′= . El segundo
autovector a2 es la segunda varianza más grande y así
sucesivamente. Además, a
Σ
2 es ortonormal, 1aa 22 =′ , a2 ortogonal a a1,
, y la varianza de z0aa 12 =′ 2 es 2222 λΣaax)avar( =′=′ . En general, El j-
ésimo aj is ortonormal. 1aa jj =′ , ortogonal al resto de los autovectores
previos ( , k = 1,2,3…j-1) y la varianza de z0aa kj =′ j es
. Del mismo modo, las varianzas para los p
autovectores es decreciente tal que V(z
jjjj λΣaax)avar( =′=′
1) > V(z2) >……> V(zp).
Finalmente, los autovectores son los componentes principales y los
autovalores la varianza de la nuevas variables. Así, las nuevas variables
son , o en notación matricial sería, Zxaz jj ′= =X A. Más detalles en
(Jolliffe, 1986), (Sharma, 1996).
En conclusión, contrario a X, Z está formado de vectores columnas
totalmente ortogonales, es decir por variables no correlacionadas. El
procedimiento general para calcular el ACP es como sigue:
La primera variable transformada z1 es la combinación lineal de X
describiendo la mayor cantidad de variabilidad medida en
mediante su autovalor asociado λ
Σ
1 dado por z1 = Xa1, donde
. )Σaamax(λ 111 ′=
La segunda variable transformada z2, es entonces la combinación
lineal z2=Xa2, la cual describe la segunda varianza más grande de
. Esto es, maximiza la varianza para Σ 22Σaa′ , sujeta a que z2 no
debe estar correlacionado con z1. Es decir, z1z2 = 0.
En general, la i-ésima variable transformada zi es zi = Xai y
corresponde con la i-ésima varianza más grande de Σ , dada por
51
iiΣaa′ , sujeta a que zi no debe estar correlacionado con el resto de
las variables en Z. Es decir, zizj = 0, j=1,….p con i≠j y zizi = 1.
Existe un método matricial directo conocido como Valor de
Descomposición Simple (VDS) que puede ayudar a resolver ACP.
Supóngase que se tiene la misma matriz original X de N observaciones
(filas) y p variables (columnas). La descomposición espectral de esta
matriz X puede ser escrita de la siguiente manera:
X = QSE',
Donde E es una matriz ortogonal pxp cuyos autovectores son X’X, S es
una matriz diagonal pxp formada por los autovalores de X’X, Q es una
matriz ortogonal Nxp. Además, E y Q son ortonormales, es decir EE’ =
1 y QQ’ = 1. De igual modo, el producto X’X forma una matriz simétrica
y puede ser escrito mediante la descomposición espectral de la siguiente
manera,
X'X = (QSE')'(QSE') = ES'SE' = EΛE',
Nuevamente, sea la matriz de covarianza de X; puesto que es una
matriz cuadrada y simétrica, entonces la podemos expresar mediante la
descomposición espectral como Σ = EΛE', donde la diagonal de Λ está
formada por el cuadrado de los p autovalores de Σ . E es una matriz
ortogonal pxp donde la i-ésima columna corresponde al i-ésimo
autovalor.
Σ Σ
Las variables transformadas, quedan definida como por Z y Z = XE, que
no son más que los valores de X proyectados sobre la nueva base
ortonormal definida por los autovectores en E. La matriz de covarianza
de estas variables transformadas en Z, puede estar expresada por
E(Z'Z) = (XE)'(XE) = E'X'XE = E'ΣE.
De este modo, al sustituir a Σ , la matriz de covarianza será
E(Z'Z) = E'EΛE'E = Λ.
52
Esto es, los autovalores λ1, λ2… λp correspondientes a la diagonal de Λ,
representan la varianza para cada una de las variables transformadas en
Z, siendo no correlacionadas y en consecuencia, Z es una matriz no
correlacionada.
Otra particularidad de los ACP es que la varianza total de Z es igual a la
varianza total de X. La varianza total de Σ corresponde a la suma de la
varianza de cada una de las variables originales en X y está dada por su
propia traza, tr(Σ)=∑ . Con la ayuda de la propiedad que indica que
tr(AB) =tr(BA), se puede mostrar que la varianzas de X y Z son iguales
como sigue:
=
p
j 1
2jjσ
tr( ) = tr(EΛE') = tr(E'EΛ) = tr(Λ). Σ
Si las variables originales son estandarizadas, entonces la matriz de
correlación R sería usada en sustitución de Σ . En este caso, la
descomposición espectral para R sería R = EΛE'. De igual manera que
para la matriz de covarianza, Z = XE y E(Z’Z) = Λ. Adicionalmente,
para este caso en particular, la suma de los autovalores en Λ es igual a
p y es igual a la suma de de los elementos de la diagonal de R.
Lo que es lo mismo tr(R) = rango(R) = tr(Λ) = p. Es importante
tener en cuenta que los autovectores y los autovalores son sensibles a
los cambios de escala. Σ podría mostrar severos cambios por esta
misma razón. R, por el contrario, omite este problema y de ahí que los
autovalores y autovectores originados por R o Σ son diferentes.
Las Redes Neuronales Multicapas con funciones logísticas como
función de activación y el algoritmo de retropropagación del
error.
En el entendido de que es un procesador paralelo distribuido en los que
se almacena el conocimiento, emula su símil biológico en dos aspectos
fundamentalmente: a) el conocimiento es adquirido a través de un
53
proceso de aprendizaje y b) la fortaleza de la interconexión de las
neuronas artificiales está descrita en los pesos sinápticos.
Variables Transformadas
Nuevas variables de los bancos
Banco 1
Banco 2
.
.
Banco n
Banco 1
Z1 Z2 ... Zk
Banco 1
Banco 1
1986
al 2
004
Banco 1
Banco 2
.
.
Banco n
Variables Macroeconómicas
M1 M2 ...Mk
Eje
mp
los
de e
ntr
ad
a
Variable Categórica Eje
mp
los
de s
alid
aBanco 1
Banco 2
.
.
Banco n
……………….
……………….
Figura 3. ACP y RN-RP para la construcción del modelo híbrido de
pronóstico
Bajo estas consideraciones esenciales, toda red artificial ajusta
permanentemente sus parámetros libres (pesos y umbrales) mediante
mecanismos de aprendizaje que podrían ser supervisados o no. El caso
54
particular que se aplica a este modelo híbrido es un modelo de red
neuronal multicapa que activa el cambio en las interconexiones de los
pesos sinápticos a través de una función de excitación no lineal
(logística) y un proceso de corrección de estos pesos mediante la
constante evaluación de su convergencia a un umbral dado. Este
proceso no supervisado se le conoce con el nombre de red neuronal con
un algoritmo de retropropagación del error (backpropagation neural
network) (RN-RP).
Tal como lo muestra la figura 3, la topología de una red neuronal RN-RP,
es similar a la mostrada. Una capa de nodos que capturan los
componentes de los patrones de entrada uno a la vez y del mismo un
patrón de salida capturado por el o los nodos de salida. En el
intermedio se incluye una capa de nodos que se le conoce como capa
oculta y en cada uno de sus nodos se incluye la función de excitación.
Esta función puede variar de acuerdo a las características del dominio
del problema real. Puede ser funciones asimétricas como la hiperbólica
tangencial, la lineal, y la función no simétrica conocida como logística.
El proceso de aprendizaje en este tipo de redes es básicamente en dos
fases (Werbos 1974; Rumelhart et al. 1986):
Fase hacia delante: Los parámetros libres de la red son
establecidos y el patrón de entrada i es propagado a través de la
red capa por capa. Esta fase finaliza con el cálculo del error ei
entre la salida calculada sc y el patrón de salida dado sd, ei= sd-sc.
Fase hacia atrás: El error ei es propagado a través de la red en
dirección hacia atrás. De ahí el nombre del algoritmo. Esen esta
fase que se realizan los ajustes a los parámetros libres de la red,
así que se minimice el error en un sentido estadístico, mediante el
error cuadrático medio.
El algoritmo de retropropagación se procesa en el modo lote,
regularmente. Los pesos se ajustan sobre la base de ciclo a ciclo, donde
55
cada ciclo consiste de el conjunto completo de patrones de entrada y
salida disponible para el entrenamiento. Este algoritmo es sencillo de
implementar de implementar y eficiente computacionalmente. La
arquitectura de los modelos neuronales seguirá una topología fija en
cada uno de los experimentos conducentes a medir la consistencia en el
entrenamiento y capacidad de generalización. El número de nodos en la
capa oculta estará directamente vinculado con la cantidad de
parámetros libres que incluiría la red neuronal y el nivel de convergencia
deseado. De este modo, existirán una fase inicial de entonación de la
red, ajustando nodos ocultos, función de activación, separación de los
conjuntos de datos de entrenamiento y verificación, ajuste de la tasa de
aprendizaje, selección del momento ideal para escapar lo más de las
soluciones locales, nivel del error de convergencia, selección de un
conjunto de pesos iniciales, y una segunda fase que es totalmente
experimental comprendiendo solamente la construcción y prueba de los
modelos. El criterio de parada empleado es el de la verificación cruzada
(Haykin, 1999) que consiste en: a) Dividir el conjunto de entrenamiento
en dos partes: subconjunto de estimación usado para el entrenamiento
y subconjunto de verificación para evaluar el desempeño del modelo
previamente entrenado; b) Entonación final de la red usando el conjunto
entero de entrenamiento y luego probar la generalización con patrones
nunca conocidos por el modelo.
Sección experimental
Haciendo referencia al diagrama funcional mostrado en la figura 3 y
para el caso particular de los datos de la banca comercial compuesto por
las razones financieras y la agrupación obtenida en el modelo de análisis
discriminante en una variable categórica, se dividirá en dos
subconjuntos al conjunto original, antes de iniciar la construcción de los
modelos. El conjunto original de datos de aproximadamente 8000
56
observaciones, se dividirá en uno para realizar el entrenamiento,
verificación y puesta a tono del modelo, de aproximadamente 6000
ejemplos, y el otro, formado por un subconjunto con aproximadamente
2000 ejemplos nunca usados por el modelo serán usados para verificar
el nivel de desempeño o generalización. En la construcción de la red
neuronal y como un primer intento de estimación del número de nodos
presentes en la capa oculta, se empleará el criterio heurístico que
determina el orden de acuerdo a una relación entre el nivel de error
deseado y el número limitado de parámetros libres involucrados (pesos
y umbrales).
Los modelos serán replicados una cantidad aceptable de veces con
diferentes grupos de datos de entrenamiento y manteniendo constante
las consideraciones iniciales asumidas para la topología y arquitectura
de la red neuronal. El resultado de obtener varios modelos es para que
permita medir la consistencia de los valores en las tres fases
fundamentales de la construcción de los modelos: entrenamiento,
verificación y generalización. Las medidas de evaluación que
garantizarían resultados aceptables y consistentes serán el error medio
cuadrático calculado entre el los valores deseados y calculados en la
fase de entrenamiento y verificación, el error medio cuadrático (RMSE)
obtenido durante la fase de generalización. Ambos resultados serán
medidos para cada modelo y luego de su tabulación, serán observadas
las variaciones en los resultados del RMSE obtenidos en las dos fases
para determinar el grado de consistencia conseguido en la construcción
de los modelos bajo condiciones uniformes de diseño. Una alta
consistencia conseguida entre los modelos entrenados y probados
garantiza una aceptable robustez en los procesos de pronóstico bajo las
condiciones de construcción que se siguieron al inicio.
57
Referencias.
Amir F. Atiya, Senior Member, IEEE. (2001). Bankruptcy Prediction for
Credit Risk Using Neural Networks: A Survey and New Results. IEEE
TRANSACTIONS ON NEURAL NETWORKS, VOL. 12, NO. 4, JULY 2001
Ayesterán, José R., Ramoni, Josefa y Orlandoni Giampaolo. (1996).
Crisis y Poder: El caso del Sistema Financiero. Economía Nueva Etapa.
No. 11.
Colmenares Gerardo, (2004). Reducing Archives to Build Non Linear
Models Using Neural Networks. AMSE Periodicals. Lion. France
Dong D. and McAvoy T. (1996). Nonlinear Principal Component Analysis
-Based on Principal Curves and Neural Networks. Computer Chem.
Engng., vol 20, no. 1, pp. 65-78.
Haykin Simon. (1995). Neural Networks. A comprehensive foundation.
Macmillan College Publishing Company, Inc.
Haykin Simon. (1998). Feedforward: Neural Networks: An Introduction.
Chapter 1. Manuscrito
Kramer M. (1992). Autoassociative Neural Networks. Computer Chem.
Engng., vol. 16, no. 4, pp. 313-328.
Sharma Subash. (1996). Applied Multivariate Techniques. John Wiley.
USA
Tan S. and Mavrovouniotis M. (1995). Reducing data dimensionality
through optimizing neural network inputs. AIChE Journal, vol 41, no. 6,
pp. 1471-1480.
58
MODELO DE SUPERVIVENCIA APLICADO A LA BANCA VENEZOLANA
Maria Alejandra Ayala
Resumen
Los fenómenos de crisis bancario pueden ser detectados a través de
modelos que indican una situación de quiebra, pero que no indican su
evolución en el tiempo para determinar su cambio de estado. Esta
investigación por medio de la función de supervivencia construye los
modelos para la banca comercial, uno a uno. Esta función considera
implícitamente la construcción de un conjunto de pesos que afectan
cada función individualmente y que pueden ser estimados a través de l
modelo de riesgo proporcional, en donde los coeficientes de las variables
explicativas se podría estimar a través de un modelo de regresión. Sin
embargo, un modelo de red neuronal podría intervenir a través de la
estimación de los pesos sinápticos que actúan como parámetros libres
como estimador de los parámetros envueltos en esta función que
completa el modelo de riesgo proporcional. Esta alternativa potencia la
no linealidad y le da una capacidad de estimación al modelo mucho más
amplio. Por otro lado, los valores umbrales de quiebra estimados
mediante cada una de estas funciones de supervivencia que rigen para
cada uno los bancos analizados, aportan un patrón de salida que podría
ser estudiado conjuntamente con las razones financieras, en un modelo
de pronóstico de quiebra usando redes neuronales con algoritmo de
entrenamiento de retropropagación del error. (RN-RP). El buen
desempeño de ambas técnicas mejoraría la capacidad de pronóstico
tanto del umbral de quiebra mediante las funciones de supervivencia
como su capacidad de generalización para fenómenos en los bancos no
conocidos aún por el modelo.
59
Palabras claves: función de supervivencia, probabilidad asociada,
riesgo financiero, redes neuronales, modelo de riesgo proporcional,
retropropagación del error.
Introducción
Diferentes han sido las técnicas estadísticas que las entidades bancarias
han utilizado para describir su comportamiento; más importante aún,
para intentar identificar situaciones irregulares que pueden desembocar
en crisis financieras, las cuales implican altos costos en términos de
perdida de crecimiento económico.
Aunque los modelos probit han demostrado buen desempeño en este
sentido, estos modelos, solo permiten estimar la probabilidad de que un
banco “quiebre”, pero no informan acerca del tiempo que las entidades
vulnerables podrían demorar en demostrar problemas.
El objetivo general de este trabajo es investigar cuándo es probable que
la entidad financiera cambie de estado. Dicho de otra forma, la variable
aleatoria de interés, es la duración del lapso de tiempo que tarda la
entidad en cambiar de estado. Específicamente interesa el tiempo que
tarda en ocurrir el cambio de estado y cuales son las variables que más
influyen en el cumplimiento del cambio de estado.
La técnica que permite describir el comportamiento de datos que
corresponden al tiempo o duración desde un origen bien definido hasta
la ocurrencia de un cambio de estado o punto final se denomina “análisis
de supervivencia” (Klein , J. et al., 1997 ).
Esta técnica posee varias ventajas con respecto a técnicas clásicas como
la estimación de modelos logit “clásicos”, de regresión o análisis
discriminante. Estas ultimas son de naturaleza estática, mientras que el
análisis de supervivencia capta la temporalidad y la variación de las
circunstancias a lo largo del tiempo. Esto se debe a que son análisis de
60
corte transversal de los tiempos de duración observados para
las n entidades financieras que conforman la población.
1 2, , , nt t tL
El concepto central de un modelo de supervivencia no es la probabilidad
de que un cambio de estado ocurra (por ejemplo, probabilidad que un
banco quiebre), sino más bien la probabilidad condicional de que ocurra
un cambio de estado dado que tenia en el tiempo anterior otro estado
(por ejemplo, que un banco quiebre dado que en el periodo anterior no
había quebrado). Este tipo de análisis permite además incluir en el
modelo factores explicativos constantes y variables en el tiempo. En las
técnicas clásicas, el querer introducir factores cambiantes en el tiempo
surgen problemas de colinealidad y autocorrelación, haciéndose
necesario la corrección de estos inconvenientes (Allison, P. D. , 1982 ).
El problema principal que hace necesario el uso de modelos de
supervivencia es la existencia de censura en los datos. La censura
ocurre cuando el resultado o evento de interés (cambio de estado) no
se observa para todos los individuos dentro del periodo en que se realiza
la recolección de los datos. Por lo tanto, muchas de las observaciones
representan la duración registrada hasta el momento de la medición y
no el lapso de tiempo transcurrido hasta la ocurrencia del evento. Para
el caso particular del estudio del tiempo que podría tardar una entidad
financiera en cambiar de estado, el tipo de censura que se presenta, se
conoce como por la derecha.
61
el cambio de estado o bien porque l
cambio de estado por una causa distint
Modelo
En primera instancia, debe conocerse s
quiebre dado que no ocurrió en un
creciente o decreciente en el tiempo. I
de mayor riesgo de quiebra, lo cual es
preventivas.
La función de riesgo, tiene como
diferentes periodos de tiempo. R
probabilidades condicionales,
f(t) = P(banco quiebre en el momento t d
Si definimos T una variable aleat
represente el tiempo de vida de u
siguientes valores , la fun
variable aleatoria T viene dada por
0 1 20 t t t≤ ≤ ≤ L
( ) ( ) pi if t P T t= =
La función de supervivencia viene dada
o Más adelante se especifican los criterios para p Se considera que un banco vive, mientras no
A y B marcan el inicio y la
finalización del periodo de
estudio. La censura por la
derecha ocurre cuando el cambio
de estado no se ha producido, ya
sea porque el estudio finalizó
antes de que sucediera el
a entidad financiera presento un
a a la quiebrao.
i la probabilidad de que un banco
momento anterior es constante,
dentificar cuáles son los periodos
útil en la planificación de políticas
objetivo describir el riesgo en
epresenta una secuencia de
ado que en t-1 no había quebrado)
oria discreta no negativa que
n bancop , T puede tomar los
ción de probabilidad asociada a la
(0.1) ara = 1, 2, ....i
por:
identificar bancos en quiebra se registre su quiebra.
62
;
( ) ( )j
jj t T
S t f t≥
= ∑ (0.2)
representa la probabilidad de que T sea mayor o igual a un valor t, es
decir, la probabilidad de que la supervivencia del banco sea T . En
este punto debe aclararse, que si no existiese censura , la estimación de
esta función sería simplemente contar cuantas entidades financieras
llegaron hasta el momento respecto al total.
t≥
jt
La función de riesgo puede definirse como:
( )
( | ) 0,1,2,...( )
jj j j
j
f tP T t T t j
S tλ = = ≥ = = (0.3)
Representa la probabilidad de que una entidad financiera quiebre en el
momento dado que no quebró (sobrevivió) hasta el momento . jt jt
La función de supervivencia puede escribirse como [3] ( )
1 1( )
jj
j
f tS t
λ− = − de
donde
1
0
( ) (1 )j
j ji
S t λ−
=
= −∏ (0.4)
De esta forma, una estimación no paramétrica de la función de
supervivencia sería
|
( ) (1 )j
jj t t
S t λ∧ ∧
<= ∏ − (0.5)
Si existe censura, entonces para algunas entidades financieras, se
observa que su vida llego hasta un momento determinado, pero no el
tiempo completo. Definimos como el número de entidades financieras
que quiebran en el momento j. como el número total de entidades
financieras que estuvieron en el momento j, usualmente se conoce
como el conjunto de riesgo o simplemente el número al riesgo (Hosmer
et al., 1999). Puede definirse entonces,
jd
jn
jn
63
jj
j
dn
λ∧
= (0.6)
Este estimador es conocido como el estimador no paramétrico de
Kaplan-Meier o también estimador del producto limite (Hosmer et al.,
1999). Este estimador incorpora información de todas las observaciones
disponibles, sean o no censuradas, además es una función que depende
solo de los valores de la muestra y permite describir la relación
existente entre la función de riesgo y el tiempo de supervivencia hasta
que ocurre la quiebra de la entidad financiera. La validez del estimador
de kaplan-Meier descansa en los supuestos de que las entidades
financieras que se retiran del estudio tienen un destino semejante al de
las entidades que permanecen y que el tiempo durante el cual una
entidad financiera entra al estudio no tiene efecto independiente en la
respuesta. De forma más general puede estimarse la probabilidad de
supervivencia como
(
( ) j jj
j
n dS t
n
∧ )−= (0.7)
Una ves que se tiene la función de supervivencia, es de interés
investigar si el riesgo λ de quiebra difiere sistemáticamente entre las
entidades financieras, esto significa, identificar variables explicativas de
la heterogeneidad observada en función del riesgo. Por ejemplo, si el
riesgo de quiebra disminuye en el tiempo, debemos identificar, que
características distinguen las entidades financieras con alto riesgo de
quiebra de aquellas con bajo riesgo de quiebra.
La forma de estudiar la heterogeneidad observada es introduciendo en
el modelo p variables explicativas pZ que caracterizan una entidad
financiera o su entorno, por ejemplo depósitos totales entre activos
totales, pasivos externos, tasa interbancaria del sistema bancario, etc.
Se define entonces un vector de variables 1 2 , ,,ij ij ij pij⎡ ⎤= ⎣ ⎦Z z z zL donde cada
64
elemento del vector representa la característica p para la entidad
financiera i en el momento j. La inclusión del vector de características
puede hacerse de formas que son las más comunes. La primera, con un
modelo de falla acelerada (AFTM) y la segunda con un modelo de riesgo
proporcional.
La diferencia fundamental entre estos modelos es la forma de introducir
los efectos de las variables explicativas. En un modelo AFTM, el efecto
de las variables explicativas se hace directamente sobre el tiempo de
supervivencia. En el modelo de riesgo proporcional el efecto se introduce
sobre la función de riesgo.
En este trabajo se utiliza un modelo de riesgo proporcional, una de las
ventajas de este modelo sobre un modelo AFTM es la interpretación,
esta indica el efecto de la variable explicativa sobre el riesgo de quiebra.
Por otra parte, la incorporación de variables explicativas que cambian en
el tiempoq y la posibilidad de estimar los efectos de las variables
explicativas sobre el riesgo sin necesidad de especificar una función
paramétrica para el riesgo baser (Pita Fernández, 1995).
Modelo de Riesgo proporcional propuesto por Coxs
En este modelo el efecto del vector [ se produce de manera
multiplicativa sobre la función de riesgo mediante un factor que no
depende del tiempo de duración. Sea
]i jZ
0 ( )tλ la función de riesgo base. La
función de riesgo para la i-ésima entidad financiera puede escribirse
como una proporción de la función de riesgo base, esto es (Hosmer et
al., 1999)
0( ; ) ( ) ( )t z t zλ λ ϕ= (0.8)
q Como por ejemplo múltiples razones de finalización r El riesgo base es una función que expresa el comportamiento de una entidad financiera en referencia, cuando las variables explicativas toman el valor cero (0) s Propuesto por Cox en 1972
65
donde ( )izϕ es una función de los valores del vector de variables
explicativas para la i-ésima entidad financiera. Esta función se interpreta
como el riesgo en el momento t para una entidad cuyo vector de
variables explicativas es , relativo al riesgo para una entidad
financiera cuyo vector de variables explicativas es cero.
iZ
Z
Dado que el riesgo relativo ( )izϕ no puede ser negativo, se propone una
función ( )( ) iiz e µϕ = , donde 1 1 2 2i i i p piz z zµ β β β= + + +L . El modelo de riesgo
proporcional general para la i-ésima entidad financiera es (Hosmer et
al., 1999)
( )1 1 2 2
0( | ) ( )i i p piz z zi t z e tβ β βλ + + += L λ (0.9)
La función de riesgo base es la misma para todas las entidades
financieras. Por este motivo para dos entidades financieras con variables
explicativas , el cociente de las respectivas funciones de riesgo
viene dado por (Hosmer et al., 1999):
* y Z Z
*
11
*
1
( )0
*
0
( )( | )( | )
( )
ppp p
p p p pp
p
p pp
zz z
z
e tt z et z
e t
ββ
β
λλλ
λ
==
=
⎡ ⎤⎢ ⎥ ⎡ ⎤⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎢ ⎥⎣ ⎦⎡ ⎤⎢ ⎥⎢ ⎥⎣ ⎦
∑∑
= =∑
(0.10)
Esta razón se conoce como riesgo relativo, es constante en el tiempo y
las tasas de riesgo son proporcionales. La interpretación de lo
coeficientes esta dada por la siguiente derivada:
ln ( | )
pp
t zzλ β∂
=∂
(0.11)
pβ da el cambio proporcional en la función de riesgo que resulta de un
cambio marginal en la p-ésima variable explicativa. Si difieren en
la p-ésima variable explicativa, la cual es una variable binaria, se tiene
(Hosmer et al., 1999):
* y Z Z
*
( | )( | )
pt z et z
βλλ
= (0.12)
66
En este modelo existen algunos supuestos implícitos. Se supone que no
existe influencia de las entidades financieras en la estimación del
modelo, se supone que no existe influencia de las entidades financieras
en la estimación de cada parámetro del modelo, se supone inexistencia
de heterogeneidad no observadat, se supone adecuacidad de la forma
funcional.
Si se supone que los datos son generados por un modelo de riesgo
proporcional de tiempo continuo pero observados solo en tiempos
discretos , la correspondiente función de riesgo en tiempo
discreto viene dada por (Prentice R. L. et al., 1978):
( 1,i it t− ]
( ){ }( )1 1 2 2
( ) 1 expz z z ti i p pie
j ijzβ β β λ
λ+ + + +
−= −L
(0.13)
donde ( )j ijzλ representa las tasas de riesgo en tiempo discreto para la i-
ésima entidad financiera en cada periodo de tiempo de j = 1, 2, ..., t. La
diferencia fundamental con el modelo continuo es la interpretación de la
función de riesgo. En el caso discreto es la probabilidad condicional, en
el caso continuo es la referencia a la tasa instantánea de riesgo. Cada
elemento del vector representa una característica para la i-ésima
entidad financiera en el momento j, el vector de coeficientes
Z
β u es
semejante al vector β del modelo de riesgos proporcionales presentado
anteriormente.
Debido a que no se conoce el momento exacto de quiebra de una
entidad financiera, sólo se sabe que ocurre dentro de un intervalo de
tiempo determinado, el modelo (1.13) es el empleado en el presente
trabajo.
El modelo discreto presenta ventajas en la interpretación y verificación
de los supuestos. Al permitir incorporar variables dicotómicas asociadas
t toda la heterogeneidad presente en las entidades financieras es recogida en las variables explicativas. u El vector β representa los parámetros a estimar
67
a los distintos momentos del tiempov, el modelo discreto proporciona
una estimación directa de la función de riesgo base a partir de la cual se
puede construir la función de supervivencia base. Adicionalmente, la
verificación del supuesto de proporcionalidad es sencilla. Esto es,
verificar si los efectos de las variaciones en las características de las
entidades financieras sobre el riesgo son independientes del momento
del tiempo en que se mida. En este caso el supuesto de proporcionalidad
es mas flexible que en el caso continuo, ya que los efectos solo deben
ser proporcionales en los intervalos y no en cada instante del tiempo.
Respecto al supuesto de inexistencia de heterogeneidad no observable,
es posible introducir en el modelo la posibilidad de heterogeneidad no
observable entre las diferentes entidades financieras del siguiente modo
(Meyer, B. D., 1990).
( ){ }{ }( ) log( )1 1 2 2
( ) 1 expz z z t ei i p pie
j ijz eβ β β λ
λ+ + + + +
−= − −L
(0.14)
la inclusión del nuevo termino, resume la heterogeneidad no observable,
representada por e , la cual es una variable aleatoria con distribución
Gamma con media uno y var 2σ . Observe que cuando la estimación es
no paramétrica la elección de la distribución no es importante.
La variable aleatoria e recoge factores que pueden afectar el riesgo, pero
que no son observados directamente, esto puede deberse a que no
están disponibles en los datos o bien por errores de medición en los
datos.
Si definimos un indicador de censura como 1ic = si la supervivencia de la
i-ésima entidad financiera se observa completamente y si la
supervivencia esta censurada, la función log de la verosimilitud es
(Meyer, B. D., 1990).
0ic =
v los parámetros de la función de riesgo base
68
(0.15) [1
log (1 ) (1 )N
i i i ii
c A c B=
− + −∑ ]
donde:
{ }1
11 exp( ln(var))
it var
i ijj
A I=
⎡ ⎤= + +⎢ ⎥⎣ ⎦∑ . { }
11
11 exp( ln(var)) para 1
it var
i ij ij
B I A−
=
⎡ ⎤it= + + −⎢ ⎥
⎣ ⎦∑ >
( )1 1 2 2 ( )ij i i p piI z z z tβ β β λ⎡ ⎤= + + + +⎣ ⎦L .
Si 1it = 1i iB A= −
Las Redes Neuronales y el preprocesamiento de los modelos de
supervivencia
El análisis de supervivencia permite encontrar la probabilidad
condicional de quiebra de una entidad financiera. En realidad, la quiebra
de una entidad financiera, no es un suceso que ocurre aisladamente o
de manera fortuita, antes de que una entidad financiera quiebre, dicha
entidad pasa por diferentes etapas, desde una etapa inicial, en la que no
hay problemas hasta etapas en las cuales se gesta la crisis.
Tales etapas pueden ser vistas como categorías y si selecciona un
umbral de quiebra por cada banco como patrón de salida para
conformar un conjunto de entrenamiento conjuntamente con las razones
financieras que permitan construir los modelos de las redes neuronales
usando RN-RP. Con este modelo se pretende realizar tal clasificación
para cualquier entidad financiera en las categorías preasignadas.
Los modelos serán replicados varias veces con diferentes grupos de
datos de entrenamiento manteniendo los parámetros iniciales
uniformes, la topología y la arquitectura de la red neuronal. Los errores
medio cuadráticos (RMSE) serán calculados para cada modelo
entrenado, verificado y generalizado. Luego de su tabulación, serán
observadas las variaciones en los resultados del RMSE obtenidos para
69
determinar el grado de consistencia conseguido en la construcción de los
modelos bajo condiciones uniformes de diseño. Finalmente, se evalúa la
robustez del método verificando el alto grado de consistencia con la
variación registrada en los RMSE en cada una de las fases.
1986
al 2
004
Figura 1. Entrenamiento de una RN-RP usando los valores umbrales de
quiebra de las funciones de supervivencia
70
Las figuras anterior y siguiente muestran el esquema funcional del
modelo para ambos casos: la figura 1 muestra el entrenamiento de una
red para crear un modelo de pronóstico de quiebra y la figura 2 la
estimación de los parámetros libres o pesos sinápticos para las variables
explicativas requeridas en las funciones de supervivencia.
Figura 2. Estimación de los parámetros de las variables explicativas
requeridas en las funciones de supervivencia
71
La ventaja de utilizar redes neuronales en este sentido, radica en el
hecho de las redes pueden sintetizar algoritmos a través de un proceso
de aprendizaje.
Referencias.
[1] Klein , J. And M. Moeschberguer. “Survival Analysis. Techniques for
Censored and Truncated Data”. Springer – Verlag. New York Inc. 1997.
[2] Allison, P. D. (1982). “Discrete time methods for the analysis of
event histories”. Sociological Methodology. Bass Publishers, San
Francisco.
[3] Hosmer y Lemeshow. Applied Survival Analysis. John Wiley & Sons,
INC. (1999)
[4] Pita Fernández, S. CAD ATEN PRIMARIA 1995; 2: 130-135.
[5] Prentice R. L. Y Gloecler (1978). “Regression Analysis of grouped
survival data with application to breast cancer data”. Biometrics 34 pág.
57-67
[6] Meyer, B. D. (1990). “Unemployment insurance and unemployment
spells”. Econometrika 58 (4) pág. 757 – 782.
72