modelos estadsticos multivariantes, de pronsticos y de … · modelos estadÍsticos multivariantes,...

MODELOS ESTADÍSTICOS MULTIVARIANTES, DE PRONÓSTICOS Y DE CLASIFICACIÓN NO PARAMÉTRICOS PARA EL ANÁLISIS DE

RIESGO BANCARIOa

Grupo Banca: Gerardo Colmenaresb, Ruth Guillénc, Alexis Melod, María Alejandra Ayalae

Resumen Los mecanismos de decisión pertinentes al control de riesgo bancario

cada vez se ven más afectados en sus mediciones, debido a la dinámica

impuesta por los mercados globales y su implicación, de impacto local e

internacional, en las políticas financieras. Para las mediciones y

estimaciones de las exposiciones al riesgo por parte de las instituciones

financieras, es necesario utilizar metodologías y herramientas

especializadas, destacándose la construcción de modelos de pronóstico y

clasificación mediante técnicas estadísticas multivariantes y de

inteligencia artificial. Estas técnicas permiten la consideración de

variables y factores definitorios de los riesgos que se van a estimar;

esto es, el reconocimiento de comportamientos que claramente definen

los patrones de riesgo para dar respuesta a las necesidades de

información consistente. Se construirán, por tanto, modelos donde el

preprocesamiento de datos es un factor determinante para la generación

de variables categórica (riesgo financiero) y cuantitativas (razones

financieras). La identificación de estas variables y la aceptable calidad

de los datos que ellas definen, son usados en modelos híbridos de origen

paramétrico y no paramétrico conducentes al reconocimiento de los

patrones de comportamiento del riesgo en el sistema bancario mediante

a Esta investigación corresponde a un manuscrito preliminar de avance para un proyecto financiado por el convenio ULA-BCV al grupo transdisciplinario denominado Grupo Banca. b Instituto de Investigaciones Económicas y Sociales. Universidad de Los Andes. Mérida. Venezuela c Instituto de Investigaciones Económicas y Sociales. Universidad de Los Andes. Mérida. Venezuela d Instituto de Investigaciones Económicas y Sociales. Universidad de Los Andes. Mérida. Venezuela e Escuela de Estadística. Universidad de Los Andes. Venezuela

1

las opciones de pronóstico y clasificación. Las técnicas involucradas para

la conformación de los modelos híbridos son: a) Análisis de

Componentes Principales (ACP) como mecanismo de reducción de

variables, b) Análisis Discriminante (AD), como preprocesador de la

variable dependiente, c) Análisis de Supervivencia (AS), como método

de pronóstico de supervivencia para cada banco, y, d) modelos no

supervisados, para pronóstico y clasificación de Redes Neuronales (RN),

fundamentalmente la función logística con propagación del error hacia

atrás (RN-RP) y la función de base radial (RN-BR).

Palabras claves: modelos híbridos, técnicas multivariantes, redes

neuronales, riesgos financieros, preprocesamiento de datos.

Introducción

La mayor movilidad internacional de los recursos, la diversificación de

los productos financieros y el surgimiento de la volatilidad a nivel global

son factores que confluyen en la necesidad de adoptar métodos y

procedimientos para el control de riesgos.

Según las Normas para una Adecuada Administración Integral de

Riesgos (Superintendencia de Bancos y otras Instituciones

Financieras de la República Bolivariana de Venezuela. Gaceta Oficial

No 37.703, 3 de junio de 2003), “la sólida y adecuada administración

de riesgo garantiza el equilibrio operativo de las instituciones

financieras, lo que permite valorar apropiadamente las operaciones

de riesgo, al tiempo que coadyuva a una precisa valoración de los

resultados obtenidos en las operaciones, y por ende a reflejar una

real retribución a los recursos propios. Es de vital importancia que las

instituciones financieras implementen mecanismos y procesos; así

como cuenten con recursos humanos calificados y experimentados en

el control de los riesgos generados por sus operaciones; todo ello a

2

los fines de que logren identificar, medir, monitorear, limitar,

controlar, informar y revelar claramente los diferentes tipos de riesgo

a que están expuestas. La administración integral de riesgos, supone

la adecuación de la estructura organizativa de las instituciones

financieras, a los fines de establecer la unidad administrativa y

operativa requerida para la valoración, control y monitoreo de los

niveles de riesgos asumidos”

El control de riesgos como herramienta de administración de

instituciones financieras y productivas, opera como instrumento de

medición y de control. Los indicadores para el control de riesgos

conforman una guía para la adecuada comunicación de las empresas

con sus acreedores e inversionistas con relación a su solvencia y

operaciones, además de servir como indicadores de regulación

aplicable a operaciones con valores y derivados, e indicar los

requerimientos de capital.

La Administración Integral de Riesgos es un conjunto de objetivos,

políticas, procedimientos y acciones que se implementan para

identificar, medir, monitorear, limitar, controlar, informar y revelar

los distintos tipos de riesgos a que se encuentran expuestas las

instituciones financieras. Se trata de un proceso continuo que

requiere por parte de las organizaciones el desarrollo de políticas,

metodologías e infraestructuras. Las políticas son el resultado de

definiciones sobre estrategias para enfrentar los riesgos. Los métodos

incorporan mecanismos de valuación de los distintos tipos de riesgos

a que puede estar expuesta una organización, tales como riesgos de

mercado, de crédito y riesgos operacionales. La infraestructura se

refiere a la creación y mantenimiento de las bases de datos con

información pertinente, el equipamiento físico y de sistemas, y

también a la capacitación de personal y el desarrollo de habilidades

técnicas y gerenciales.

3

El Riesgo, en general, puede definirse como la volatilidad de los flujos

financieros, generalmente derivada del valor de los activos o los pasivos

de la organización en estudio. Las empresas están expuestas en

general, a tres tipos de riesgo: riesgos de negocios, riesgos estratégicos

y riesgos financieros.

Los riesgos de negocios son aquéllos que la empresa está dispuesta a

asumir para crear ventajas competitivas y agregar valor para los

accionistas. Los riesgos de negocios, o riesgos operativos, tienen que

ver con el mercado del producto en el cual opera la empresa y

comprenden innovaciones tecnológicas, diseño del producto y

mercadotecnia. La exposición racional a este tipo de riesgo es

considerada como una habilidad interna o ventaja competitiva de la

propia empresa.

Los riesgos estratégicos son los resultantes de cambios fundamentales

en la economía o en el entorno político. La expropiación y la

nacionalización también son consideradas riesgos estratégicos. Estos

riesgos difícilmente se pueden cubrir, a no ser por la diversificación a

través de distintas líneas de negocios y de distintos países.

Los riesgos financieros están relacionados con las posibles pérdidas en

los mercados financieros. Los movimientos en las variables financieras,

tales como las tasas de interés y los tipos de cambio, constituyen una

fuente importante de riesgos para la mayoría de las empresas. La

exposición a riesgos financieros se puede optimizar de tal manera que

las empresas puedan concentrarse en lo que es su especialidad:

administrar su exposición a los riesgos de negocio. En contraste con las

empresas industriales, la función principal de las instituciones

financieras es administrar activamente los riesgos financieros. Los

bancos, ahora, se han percatado que deben identificar y medir con

precisión los riesgos para posteriormente controlarlos y evaluarlos de

forma apropiada. Un entendimiento cabal del riesgo permite que los

4

administradores financieros puedan estar en condiciones de planear

adecuadamente la forma de anticiparse a posibles resultados adversos y

sus consecuencias y, de este modo, estar mejor preparados para

enfrentar la incertidumbre futura sobre la variables que puedan afectar

sus resultados. La administración del riesgo es el proceso mediante el

cual se identifica, se mide y se controla la exposición al riesgo. En

definitiva, la administración del riesgo financiero se ha convertido en

una herramienta esencial para la supervivencia de cualquier actividad

empresarial.

Generalmente, los riesgos financieros se pueden clasificar en riesgo de

mercado, riesgo de crédito, riesgos de liquidez, riesgo operacional y

riesgo legal. Este estudio se concentrará fundamentalmente a los

riesgos financieros bajo la premisa de que deben identificarse y medirse

con precisión estos tipos de riesgos para posteriormente controlarlos y

evaluarlos de forma apropiada.

En la identificación del problema se han considerado las siguientes

etapas en el proceso de análisis de riesgo:

a) Identificación: en un proceso dinámico y productivo aparecen nuevos

y variados riesgos; es necesario establecer sistemas y metodologías

para su descubrimiento oportuno.

b) Medición: luego de identificados, los riesgos financieros deben ser

cuantificados a través de las estimaciones de ocurrencia y severidad de

los eventos que impliquen riesgo. Tal es el caso de las funciones

supervivencia, y la construcción de modelos conducentes al

reconocimiento del riesgo mediante su pronóstico de severidad.

c) Control: el establecimiento de mecanismos de control permite velar

por el cumplimiento de las políticas de riesgo.

5

Preprocesamiento de los datos

En la actualidad las series históricas de datos pueden ser aprovechadas

para la generación de nueva información. La integración de técnicas en

modelos híbridos (paramétricos y no paramétricos) están en capacidad

de generar esta nueva información sin necesidad de incurrir en gastos

exagerados de recolección de nuevos datos. A costos relativamente

bajos se pueden originar los nuevos usos de la información que no

habían sido identificados al momento que fue creada la fuente original

de datos. Estos nuevos usos están orientados fundamentalmente a la

preparación de modelos de predicción, modelos de clasificación de

patrones mediante su reconocimiento, etc.

Uno de los medios para alcanzar estos objetivos es el análisis

exploratorio de datos. Esta exploración ciertamente es requerida en

ciertos procesos que conducen a la construcción de modelos de

pronóstico o clasificación y se le conoce también con el nombre de pre-

procesamiento. La selección u origen de estos conjuntos de datos a

partir de las fuentes históricas debe ser representativa de su fuente

original y a su vez, consistente al ser conformada, en algunos casos, por

un conjunto reducido de datos (muestras) que caractericen la fuente

histórica, mediante las variables originales o las transformadas.

Las RN(s) contribuyen a llenar estas expectativas. Son capaces de

adquirir conocimiento a partir del estímulo-respuesta ofrecido con

ejemplos que conducen inicialmente al aprendizaje y posteriormente al

pronóstico. Es decir, las RN(s) permiten la construcción de modelos

fundamentalmente no lineales para la predicción y reconocimiento de

patrones aprovechando esas fuentes históricas de datos. A través de sus

múltiples algoritmos que permiten la construcción de modelos de

predicción y clasificación, se podría revitalizar el uso de esas fuentes de

datos a un muy bajo costo.

6

La robustez de estos modelos, en cuanto a su capacidad de aprender y

generalizar, ha sido probada lo suficiente como para indicar que

representan una técnica confiable. [Colmenares, 2004], [Dong and

McAvoy, 1996], [Kramer, 1992], [Tan et al., 1995], [Xue, 1999].

Sin embargo, para asegurar que los modelos sean confiables, se

requiere que todos los valores observados y que van a ser incluidos

como elementos de aprendizaje durante la fase de entrenamiento de la

red neuronal, representen el dominio que dibuja la fuente histórica de

datos, es decir, sean representativos del espacio multidimensional

conformado por los datos. De este modo, se puede asegurar que un

modelo de red neuronal será de poca capacidad predictiva y/o de

clasificación si las observaciones para el entrenamiento no son

representativas. De igual manera, un modelo bien construido no tendrá

buena capacidad predictiva, si sus valores no son representativos. En

definitiva, las observaciones seleccionadas desde las fuentes históricas

mediante los métodos de preprocesamiento, deben representar el

dominio completo de la fuente de datos. Las herramientas de

preparación de los datos, previos a la construcción de los modelos, le da

una mayor utilidad a la serie histórica bajo la premisa de que se

extraerá información valiosa o se generará una nueva para así lograr la

fuente requerida en la construcción de los modelos híbridos.

Propuesta

En el diagrama general se puede observar una conceptualización gráfica

de los modelos híbridos. Segmentados de acuerdo al esquema de

entradas, procesos y producto, se puede observar que derivados de la

construcción de los datos que han sido debidamente procesados, se

realizan la construcción de varios modelos.

ACP es usado para la construcción de las variables latentes

seleccionadas como variables de entrada (explicativas) del modelo, un

7

conjunto de variables macroeconómicas que inciden como variables

explicativas (entrada) y las variables cualitativas determinadas en el

siguiente modelo, como variables de salida o dependientes. Estos datos

seleccionados (patrones de entrada y salida) son usados por una red

neuronal RN-RP para facilitar el pronóstico de las clases de riesgo.

AD permite la construcción de las variables categóricas, clasificando

linealmente en dos clases distinguibles, el fenómeno de comportamiento

de riesgo. Esta variable es usada por el modelo anterior y a su vez,

conjuntamente con los datos organizados de las razones financieras

originales, permitirán reconocer los grupos que identifican a los bancos

en los grupos que serán construidos automáticamente por la red

neuronal RN-RP al culminar la fase de entrenamiento. Estos grupos de

algún modo sectorizan la banca comercial de acuerdo a ciertas

similaridades.

Por último, análisis de supervivencia y redes neuronales son utilizados

para describir la función de supervivencia para cada banco descrito en

los datos mediante las razones financieras. Regresión lineal múltiple y

redes neuronales mediante RN-RP sirven de estimadores de los

parámetros de las variables explicativas que inciden directamente en la

estimación de cada una de las funciones de supervivencia. Por otro lado,

los umbrales de los valores de quiebra obtenidos representan una

referencia de salida para la construcción de un nuevo modelo de

pronóstico usando RN-RP y a su vez, valores alternativos de

comparación con los pronósticos obtenidos en cada uno de los modelos

construidos mencionados anteriormente

8

Figura 1. Diagrama General

Referencias. Ayala, Roberto. (1999). Modelos de Alerta Temprana. El Caso

Ecuatoriano: 1994-1997. Notas Técnicas No. 51. Banco Central de

Ecuador.

Ayesterán, José R., Ramoni, Josefa y Orlandoni Giampaolo. (1996).

Crisis y Poder: El caso del Sistema Financiero. Economía Nueva Etapa.

No. 11.

Dong D. and McAvoy T. (1996). Nonlinear Principal Component Analysis

-Based on Principal Curves and Neural Networks. Computer Chem.

Engng., vol 20, no. 1, pp. 65-78.

9

Guillermo Rozenwurcel y Leonardo Bleger. (1997). El Sistema Bancario

Argentino en los Noventa: De la Profundización Financiera a la Crisis

Sistémica. Desarrollo Económico, V 37, No. 146.

Kramer M. (1992). Autoassociative Neural Networks. Computer Chem.

Engng., vol. 16, no. 4, pp. 313-328.

SUPERINTENDENCIA DE BANCOS Y OTRAS INSTITUCIONES

FINANCIERAS (2003). Normas para una Adecuada Administración

Integral de Riesgos (Gaceta Oficial No 37.703 del 3 de junio de 2003.

RESOLUCIÓN No 136-03. Caracas, 29 de mayo de 2003). REPÚBLICA

BOLIVARIANA DE VENEZUELA.

Tan S. and Mavrovouniotis M. (1995). Reducing data dimensionality

through optimizing neural network inputs. AIChE Journal, vol 41, no. 6,

pp. 1471-1480.

Thomas, L., Edelman, D. and Crook, J. (2002). Credit Scoring and its

applications. Oxford University Press, Oxford.

Xue Z. Wang. (1999). Data mining and knowledge discovery for process

monitoring and control, Springer-Verlag. Great Britain.

10

CONSIDERACIONES PRELIMINARES DE LA GESTIÓN DEL RIESGO EN EL SISTEMA BANCARIO-EL CASO DE LAS CRISIS BANCARIAS

EN VENEZUELA.

Ruth Guillén Comentario inicial

Una de las grandes dificultades que enfrentan los profesionales en la

actualidad, es que dada la gran especialización de los grupos con

diferentes perfiles se hace difícil el dialogo entre los mismos, el

aprovechamiento de técnicas para el análisis de diversos problemas, así

como la comprensión de la naturaleza de los mismos.

En este sentido, el análisis del sistema bancario, específicamente el

riesgo bancario, utilizando técnicas estadísticas, requiere de la

comprensión del sistema, y de las consecuencias que un inadecuado

manejo del mismo pueden ocasionar en un país, específicamente la

referente a “las crisis bancarias”.

Las siguientes líneas pretenden dar una breve visión de lo que es el

sistema financiero venezolano en la actualidad, las principales crisis

financieras que ha tenido que enfrentar, las causas asociadas por los

especialistas en el área económica, así como los costos asociados.

El sistema financiero venezolano y las crisis bancarias

El sistema bancario venezolano, según el último informe de la

Superintendencia de Bancos (Sep-2004) está constituido por 51

institucionesf, de las que el 62,73% corresponden a Bancos Universales

y Comerciales (33,33% y 29,4% respectivamente), y el 37,27% a

f Específicamente al 30/9/2004 de las 51 instituciones: 17 corresponden a bancos universales, 15 a bancos comerciales, 4 a Bancos con leyes especiales; 2 Bancos de desarrollo; 5 Bancos de inversión; 2 Bancos Hipotecarios; 1 Arrendadora Financiera, 3 Entidades de Ahorro y Préstamo y 2 Fondos del Mercado Monetario

11

Bancos de Inversión, Desarrollo, Hipotecarios, con leyes especiales,

Arrendadoras Financieras, Entidades de Ahorro y Préstamo y Fondos del

Mercado Monetario. En conjunto estas instituciones manejan sólo en

captaciones del público cerca de 18 mil millones de dólares, es decir,

aproximadamente el 85% de las reservas internacionales del país.

Este apreciable número de instituciones y su volumen de captación a

simple vista deja entrever por un lado, la gran confianza que sienten los

agentes al depositar sus recursos en dichas instituciones y por otro lado,

el papel preponderante que los mismos poseen en el desenvolvimiento

de nuestra economía contemporánea, ya sea por perfilarse como

agentes del ahorro, agentes de colocaciones, creadores de dinero,

expresión del sistema de pagos y/o por su gran influencia en la

estabilidad macroeconómica del país.

La historia del sistema bancario venezolano, sin embargo, revela que

han existido momentos en los cuales un número importante de

intermediarios han padecido lo que se conoce como “crisis bancarias”,

es decir, una situación en la cual varias instituciones enfrenta severos

problemas de solvencia y no puede cumplir con las obligaciones

contraídas frente al público, estas situaciones en su momento generaron

pánico en el público que había confiado sus ahorros a dichas

instituciones. Así, dos grandes crisis han sido registradas en nuestro

país: la crisis de comienzos de los años 60`s y la crisis del año 1994g.

La primera crisis surgió en un marco de desconfianza que se generó en

los años siguientes a la caída de la dictadura de Pérez Jiménez (1958),

la incertidumbre política de tener un nuevo gobierno condujo a una

importante salida de capitales, de manera conjunta se produjo una

fuerte caída en las reservas internacionales, contracción de la

g Entre estas dos crisis hubo varias quiebras individuales de bancos que en su momento fueron importantes en cuanto al volumen de captaciones, sin embargo, para los fines de este ensayo no las consideramos como crisis bancaria.

12

economía, y una afectación adversa del 40% del sistema bancario

nacional, debido a la fuerte liquidación de pasivos a la que debió

enfrentarseh, aumento en la cartera de créditos demorada y en litigio y

una crisis en la balanza de pagos que terminó por dejar a la banca en

una situación de insolvencia para honrar las obligaciones adquiridas con

los acreedores externos.

El balance final de ésta crisis fue: 2 instituciones intervenidas

(específicamente el Banco Táchira y el De Fomento Comercial de

Venezuela); 3 instituciones auxiliadas de manera directa (Banco

Nacional de Descuento, Construcción y Comercial de Maracaibo), 16

instituciones utilizando operaciones de redescuento, como mecanismo

de obtención de liquidez y un alto costo para la nación (Ver cuadro 1).

La segunda crisis bancaria a nivel nacional, se produce a partir de enero

de 1994, luego de que el Banco Latino, segundo banco comercial del la

época, fuera excluido de la Cámara de Compensación, produciéndose

luego, su intervención por parte del Consejo Superior de

Superintendencia de Bancos, quien decidió paralizar sus actividades y

las correspondientes a las empresas relacionadas.

Tal intervención generó pánico en el público, y no sólo el banco

intervenido sino otra gran cantidad de bancos en el sistema debieron

enfrentarse a una rápida liquidación de sus pasivos, lo que produjo una

fuerte crisis de liquidez en el sistema y la necesidad de que FOGADE y el

BCV iniciarán fuertes programas de auxilio financiero a varias

instituciones. La situación del sistema financiero, sin embargo, se fue

agravando a través del tiempo y seis meses más tarde de la

intervención del Banco Latino comienza una ola de intervenciones y

estatización de instituciones por parte del gobierno, así, en junio son

intervenidas ocho instituciones a puerta cerradas (Banco Amazonas,

Bancor, Barinas, Construcción, La Guaira, Maracaibo y Metropolitano h Los depósitos se redujeron un 33% en 1959.

13

(los cuales detentaban al 31 de dic. De 1993 el 20,8% de los depósitos

totales), y la sociedad financiera FiVECA); en el mes de agosto, al

producirse otra fuerte corrida de depósitos son intervenidos a puertas

abiertas dos importantes bancos comerciales que hasta el momento

eran percibidos como sólidos (Consolidado y Venezuela); en el mes de

diciembre, son estatizados los bancos Progreso y República; en el mes

de enero del año 1995 se liquida el grupo latinoamericano progreso (que

poseía entre otros a los Bancos Progreso y República) y en febrero de

este mismo año se estatizan los Bancos Profesional, Ítalo-Venezolano y

Principal (Ver cuadro 2).

Una de las características más relevantes de la crisis del año 94, fue su

rápida propagación en el sistema, tal que al final de la misma el 60% del

sistema bancario resultó afectado adversamente. En palabras de quien

fuera la presidenta del BCV para el momento de la crisis, “el sistema

comenzó a derrumbarse como un castillo de naipes. En un período de

tres semanas, casi un tercio de los bancos venezolanos estaba cerrado,

o bien se mantenían abiertos gracias a un oneroso respaldo financiero

oficial. Casi dos mil millones de dólares salieron del país en ese corto

plazo…dieciocho meses más tarde el gobierno venezolano tenía a su

cargo 58 instituciones financieras quebradas, forzado a controlar

además millares de empresas asociadas. Unos siete millones de

depositantes –más de un tercio de la población –habían sufrido enorme

incertidumbre y, en algunos casos, también una pérdida financiera”i.

Ambas crisis, resultaron dramáticamente costosas para la nación, no

sólo por la tensión que pudieron sentir los ahorristas, sino porque se

calcula el costo de los auxilios destinados para la superación de las

mismas se ubicaron en: 5.4% del PIB en el año 1960; 10.4% en el año

1961; 8.2% en 1962 y 5,4% en 1963j; y en 20% del PIB para la de

i Ruth de Krivoy (2002). Colapso. j Ver García. Lecciones de la una crisis bancaria de Venezuela.

14

1994. Éstas cifras sin embargo, parecieran quedarse cortas, esto si

asociamos las consecuencias derivadas del aumento de la inflación, fuga

de capitales, déficit fiscal, entre otros, que tuvieron que soportar los

nacionales y además porque en fecha reciente y a 11 años de la

segunda crisis, el Fondo de Garantías y Depósitos FOGADE aun continua

reintegrando a los ahorristas parte de los fondos perdidos, esta vez sin

embargo, adicionando intereses y cláusulas de indexación.

Causas de las crisis bancarias:

Dado que las crisis financieras han tenido la particularidad de ser

bastante frecuentesk en las últimas décadas varías han sido las

explicaciones asociadas con su aparición, entre ellas cabe destacar:

• Las crisis bancarias surgen debido a la elevada exposición

que poseen las instituciones bancarias a riesgos muy

diversos y el inadecuado manejo del mismo: "Dichos riesgos

surgen del hecho de que estas instituciones tienen como propósito

mediar entre agentes económicos de flujos financieros excedentes

o de ahorros, y agentes económicos deficitarios que demandan

fondos de crédito para costear sus inversiones o niveles de

consumo. Al hacer de intermediarios entre agentes económicos

demandantes y oferentes de recursos financieros o fondos

prestables, las instituciones bancarias adquieren activos y asumen

pasivos que pueden presentar asimetría de diversa índole, lo que-

en determinadas circunstancias –puede afectar su viabilidad

financiera o solvencia económica como empresas.

Las gerencias bancaria tiene como propósito, precisamente,

k Se estima en el mundo han ocurrido más de 54 crisis bancarias en los últimos 25 años.

15

reducir estos riesgos o asimetrías que pueden presentarse entre

los activos y pasivos de dichas instituciones. Sin embargo, bien

sea por la naturaleza propia de los intermediarios financieros, por

el entorno macroeconómico o los shocks agregados a la economía

(modificaciones importantes en las principales variables

macroeconómicas que afectan la economía en su conjunto), o por

las deficiencias de la propia gerencia, las instituciones bancarias

pueden verse expuestas a diversos tipos de riesgos”l, entre los

que se pueden identificar: el riesgo de liquidez, de mercado,

operacional, y legal entre otros.

Las crisis bancarias surgen debido a que la actividad

bancaria depende de los altibajos del ciclo económico . “Por

la naturaleza de su actividad, los bancos están sometidos a

riesgos estrechamente ligados con la dinámica económica general.

Los bancos emiten pasivos que son exigibles a corto plazo y a su

valor facial, mientras que generan activos de más largo plazo los

cuales son riesgosos. Cuando los clientes bancarios entran en

problemas, el valor del activo cae y el valor del pasivo se

mantiene constante. Por esta razón, es de esperar que las

variables que afectan la marcha de los negocios afecten,

consecuentemente, el patrimonio bancario”.

En este sentido, los estudios realizados han encontrado evidencia

empírica de que: el crecimiento económico está negativamente

relacionado con la probabilidad de una crisis bancaria (Demirguc-

Kunt y Detragiache -1997); las caídas de los términos de

intercambio son frecuentes en períodos previos a las crisis

bancarias (Caprio y Klingebiel -1996); las tasas de cambio real

suelen estar más apreciadas de lo que es usual que en periodos de

l Ver Gustavo García. Lecciones de la crisis bancaria de Venezuela.

16

tranquilidad financiera (Kaminsky y Reinhart -1998).

17

• Las crisis bancarias se presentan debido a problemas a

nivel monetario. Las altas tasas de interés puede ser una señal

de alerta de crisis financiera, pues estas pueden causar problemas

de cartera traduciéndose en problemas bancarios, pueden ser

consecuencia de mayores expectativas de inflación o devaluación

asociadas con síntomas de desorden monetario o pueden ser un

efecto de una política monetaria contractiva. Cabe destacar al

respecto, que la crisis venezolana de 1994, estuvo acompañada de

una política monetaria restrictiva y elevadas tasas de interés.

• Las crisis bancarias surgen porque hay una fase de

expansión del crédito que no puede sostenerse en el

tiempo, así parecen evidenciarlo para América Latina los estudios

de Gavin y Hausmann (1996) y Caprio y Klingebiel (1996) los

cuales indican que la relación entre los pasivos líquidos (M2) y

algunas variables proxis de los activos igualmente líquidos, por

ejemplo las reservas internacionales, son variables potencialmente

útiles para estudiar el desajuste bancario. La idea detrás de tal

afirmación “es que los tenedores del M2 pueden liquidar estos

recursos en cualquier momento y convertirlos a dólares a la tasa

de cambio vigente. Así, cuando la relación entre el stock de

reservas internacionales y el M2 es demasiado grande, y volátil,

hay un síntoma de que se van a presentar problemas en el

sistemam bancario.

Cabe destacar además, que este indicador ha sido examinado en

varios trabajos y ha sido calificado como un exitoso predictor de

crisis bancarias.

m Ver Carrasquilla, Alberto (1998). Causas y efectos de las crisis bancarias en América Latina

18

• Las crisis bancarias surgen porque hay un problema de

agencia (problema del principal-agente) entre los gerentes

de los bancos y los depositantes y de asimetría de

información respecto al ente regulador. Así lo ilustra Farías

(1996), “Los depositantes serían los principales, quienes confían

su dinero a los banqueros (agentes) para que lo coloquen en

inversiones capaces de generar un retorno que permita pagar la

tasa de interés prometida y devolver el capital. El conflicto surge

cuando los intereses del banquero no coinciden con los del

depositante. El banquero puede colocar los depósitos en

inversiones de alto riesgo; donde, si la aventura funciona, obtiene

un alto retorno y es capaz de cumplir su promesa al depositante.

Por el contrario, si no obtiene suficientes recursos, el depositante

no recupera su dinero y el banquero pierde su inversión. En

muchos casos, el capital que el banquero arriesga es pequeño…La

regulación bancaria ha sido un mecanismo utilizado ampliamente

para procurar una gerencia prudente de los bancos. La normativa

bancaria establece políticas de colocación de los depósitos

tendentes a diversificar el riesgo y propiciar retornos consistentes

con la solvencia y liquidez del banco. En términos de la teoría de

la agencia, los depositantes contratan reguladores para que

supervisen al banquero.

Existen por lo menos dos problemas potenciales de este arreglo

institucional. Primero, la observación imperfecta del

comportamiento del banquero genera asimetría de información.

Por más información que se vea obligado a presentar, el banquero

tendrá más y mejor información que los reguladores y habrá

siempre cierta incertidumbre residual. Segundo, la idoneidad del

regulador es un problema técnico, pero también moral; es decir,

no basta que el regulador haya desarrollado destrezas y disponga

19

de recursos suficientes. Debe poseer también suficiente

integridad, para no sucumbir a proposiciones de complicidad del

regulado. En otras palabras, es preciso evitar que el regulador

resulte cautivo del regulado.

Hay hechos que hacen que la regulación y el buen manejo de los

recursos sean tareas más difíciles, entre ellos: la posibilidad de

establecer prácticas contables dudosas (Maquillaje financiero), la

divergencia en el tratamiento de cuentas en los Estados

Financieros entre las diversas instituciones financieras, la

existencia de un seguro gubernamental, independencia en la

prima que pagan los bancos, independientemente del nivel de

riesgo, la existencia de prestamistas de última instancia (Bancos

Centrales), la inexistencia de calificadoras de riesgo privadas.

Las asimetrías de información impiden al depositante evaluar el

riesgo bancario. Los estados financieros son de difícil

interpretación, fácil manipulación y, en consecuencia, escasa

credibilidad. Para disminuir las asimetrías de información y

propiciar que el depositante adopte decisiones informadas, es

conveniente que los bancos sean analizados periódicamente por

instituciones calificadoras de riesgo”n.

Comentario Final:

Realizar un breve recorrido por el mundo de la banca, el riesgo y

las crisis del sistema, ponen de relieve la importancia y pertinencia

del uso de técnicas estadísticas en investigaciones en el campo

financiero. El entendimiento de que las crisis financieras pudieran

ser detectadas a través de sistemas de alerta temprana nos invita

n Ver Hugo Faría (1997). Crisis Bancaria. Un análisis neo-institucional.

20

entonces a trabajar en equipos multidisciplinarios y generar

herramientas prácticas para la supervisión del sector.

Basilea I, fue un llamado para que las autoridades regionales

implantasen en el año 1992, un nivel mínimo de capital requerido

del 8% (en relación a los activos ponderados por riesgo) para las

instituciones bancarias, el sistema venezolano sin embargo,

presentaba un nivel de capitalización del 6.4%. Dos años más

tarde, cuando recién se establece por ley tal requerimiento,

comenzó la segunda gran crisis nacional, no cabe duda que en ese

momento a pesar del llamado internacional estuviéramos

rezagados la adaptación del sistema a las nuevas realidades

económicas.

Hoy el Comité de Basilea II, está sugiriendo un nuevo marco para

la regulación y control del sistema bancario, que debería

implantarse a finales del 2006 o durante el 2007, este nuevo

marco fundamentado en tres pilares: capital mínimo exigible,

examen por parte del supervisor y disciplina del mercado, e

introduce una novedad, referente a que los bancos podrán

emplear en mayor medida sus propias estimaciones de riesgo a

través de sistemas internos, por lo cual cada supervisor nacional

deberá desarrollar una serie de procedimientos de examen al

objeto de garantizar que los sistemas y controles aplicados por los

bancos sirvan para calcular sus verdaderos niveles de capital y de

esta manera conocer la verdadera salud del sistema bancario. Es

apenas un año el que nos dista de tal adaptación internacional, sin

embargo mucho el estudio y aportes que nos queda por hacer a

los investigadores relacionados con la economía, estadística y

finanzas.

21

Cuadro 1:

Bancos intervenidos o auxiliados durante la crisis bancaria venezolana de 1960-1965

Institución Fecha de Intervención

o Auxilio

Táchira 12/6/61 De Fomento Comercial de Venezuela

3/11/65

Nacional de Descuento

13/8/62

Construcción 20/12/62 Comercial de Maracaibo

1964

Fuente: Leonardo Vera y Raúl González (2001).

Cuadro 2:

Bancos Comerciales intervenidos y estatizados, 1994 -1995

Institución Fecha de

intervención o estatización

Latino 16 de enero 1994 Amazonas 14 junio 1994 Bancor 14 junio 1994 Barinas 4 junio 1994 Construcción 14 junio 1994 La Guaira 14 junio 1994 Maracaibo 14 junio 1994 Metropolitano 14 junio 1994 Tequendama 14 junio 1994 Popular 14 junio 1994 Venezuela 9 agosto 1994 Consolidado 25 agosto 1994 Andino 10 noviembre 1994 Progreso 13 diciembre 1994 República 13 diciembre 1994 Ítalo –Venezolano 2 febrero 1995 Principal 2 febrero 1995 Profesional 2 febrero 1995

Fuente: Morela Arocha y Edgar Rojas (1996).

22

Referencias Bibliográficas: Arocha Morela y Edgar Rojas (1996): La crisis bancaria en Venezuela:

Antecedentes, Desarrollo e Implicaciones. Revista Monetaria, vol. XIX, nro. 2,

Cemla, Ciudad de México, abril-junio de 1996, pp 153-200.

Ayala, Roberto. Modelos de Alerta Temprana para crisis financieras. El caso Ecuatoriano:

1994-1997.

Ayesterán y Otros (1994). Crisis y Poder: EL caso del sistema financiero.

Revista Economía, Núm. 11. Instituto de Investigaciones Económicas y

Sociales. ULA, Mérida.

Carrasquilla, Alberto (1998). Causas y efectos de las crisis bancarias en

América Latina. ¿Qué sabemos y que podemos hacer?. Banco Interamericano

de Desarrollo.

De Krivoy, Ruth. Colapso (2002). La crisis bancaria venezolana de 1994. CAF,

Group pf Thirty. Ediciones IESA. 2002

Durán Rodolfo, Mayorga Mauricio y Montero Renato (1999). Propuesta de

Indicadores Macroeconómicos y Financieros de Alerta Temprana para la

Detección de Crisis Bancarias. Banco Central de Costa Rica.

Esteves A., José Tomás (1998) Diccionario de Banca y Finanzas Editorial.

Panapo. Caracas, pp 204-207

Faraco Francisco R. y Romano Suprani M. (1995) La crisis bancaria

Venezolana. Análisis Preliminar. Edit. PANAPO.

Faría, Hugo J (1997). “Riesgo Bancario: Un análisis neoinstitucional”. Debates

IESA. Vol 2, Nro. 3. Enero-Marzo, pp 11-15

Gavín Michael y Ricardo Asuman (1995). The roots of banking crises: The

Macroeconomic Context. Inter American Bank-Group of 30.

García Gustavo (1998). Lecciones de la Crisis Bancaria de Venezuela. Ediciones

IESA.

Kelly, Janet (1997). La banca universal ¿Más riesgo para el sistema bancario?.

Debates IESA. Vol 2, Nro. 3. Enero-Marzo, pp 16-22

Peña, Daniel (2002). Análisis de Datos Multivariantes. Edit. Mc Graw Hill.

España, pp 133-170.

Vera Leonardo y Raúl González. La Evolución Macroeconómica, la salud de los

23

bancos y las crisis financieras: El caso Venezuela. BCV. Ensayos de

Macroeconomía Venezolana. Colección Económica Financiera. Edit. Oswaldo

Rodríguez Sarralde. 2001.pp 284-405.

Sharma, Subhash (1996). Applied Multivariate Techniques John Wiley & Sons.

New York.

24

MODELO DE CLASIFICACIÓN PARAMÉTRICA Y NO PARAMÉTRICA DE LOS FENÓMENOS DE RIESGO BANCARIO EN VENEZUELA

Alexis A. Melo T., Gerardo Colmenares

Resumen

Este proyecto en particular trata con un modelo híbrido en el que se

aprovecha las bondades de la técnica multivariante lineal, conocida

como Análisis Discriminante (AD) y el aprendizaje cualitativo no

supervisado mediante la función base radial, bajo la topología de redes

neuronales para la gestión de riesgo bancario. Este modelo se configura

en dos etapas: la primera, para determinar los patrones de salida

mediante AD y la segunda, para determinar un modelo de pronóstico y a

su vez, de reconocimiento de las agrupaciones de bancos que se

originan en la capa oculta, luego de acceder a los patrones de entrada

que son las razones financieras transformada a una escala,

previamente. El desempeño de este modelo está siendo evaluado

mediante el uso del conjunto construido de datos para tales fines. El

objetivo fundamental de este proyecto, es conjugar ambas técnicas para

obtener un mecanismo automático de clasificación de riesgo en la banca

y la eventual capacidad de generalizar y poder pronosticar el

comportamiento de un banco en particular, dado que se conozca el

patrón de entrada.

Palabras claves: Entrenamiento supervisado, análisis discriminante,

redes neuronales, función base radial, clasificación de riesgo bancario.

Introducción.

El razonamiento cualitativo es una de las habilidades del aprendizaje en

los modelos de redes neuronales y formaliza la capacidad humana de

percibir, analizar, entender y modelar problemas reales. En el caso

25

particular de intentar clasificar el riesgo, el proceso de aprendizaje

cualitativo puede ser crucial debido a que la descripción del valor de los

patrones de entrada puede aparecer en diferentes escalas. Pueden

influir variables tanto numéricas como no numéricas, tal como podría

ocurrir en el aprendizaje humano.

Eventualmente esta técnica ha sido empleada para pronóstico de riesgo

de crédito cuando son clasificados los bonos de una compañía particular.

(Rovira et al.). Indistintamente se han considerado como variables

influyentes tanto variables categóricas como variables cuantitativas

ajustadas a una escala.

Un caso similar ocurre con la investigación que se desarrolla en este

proyecto. El empleo de las razones financieras como patrones de

entrada y los patrones de salida por cada valor observado como patrón

de entrada estimado mediante la clasificación obtenida por medio de un

procedimiento de análisis discriminante, determina el dominio del

problema.

Las redes neuronales basadas en funciones de base radial (RBF)

contribuyen a emular este tipo de condición de los datos. El desempeño

de clasificación interna en grupos que podría realizar el modelo RBF en

su capa oculta de neuronas, estaría inicialmente influenciado por la

función empleada capaz de atraer patrones a un grupo determinado y

consecuentemente la presentación de los datos descritos en los patrones

de entrada y salida. Algunos estudios enfatizan que mientras sea más

cualitativa la información, mejor desempeño tendría el modelo. (Rovira

et al., 2002). Por otro lado, (Atiya, 2001) señala en su revisión profusa

que en general las redes neuronales han mostrado mejor desempeño en

el pronóstico en el dominio de problemas financieros. Sin embargo, el

enfoque presentado en este proyecto pareciera ser un enfoque

emergente al proponerse la capacidad del modelo híbrido de: a)

pronosticar una situación en la banca comercial para un banco

26

determinado, b) agrupar la banca comercial de acuerdo a las similitudes

en los patrones de entrada, c) combinar ambas técnicas, AD y RBF, en

el proceso de preprocesamiento de datos, proceso de aprendizaje de la

red y capacidad de pronóstico.

En las secciones que siguen, se describirán brevemente las técnicas que

se emplearán y finalmente el modelo que se esta siguiendo para este

proyecto en particular.

Análisis Discriminante aplicado al riesgo bancario

Teniéndose un amplio conjunto de datos p-dimensionales el problema

del Análisis Discriminante se reduce a la habilidad que se tiene,

mediante un modelo lineal, de poder clasificar este conjunto de datos de

entrada con sus variables definidas, en función de una regla de

discriminación o de clasificación predeterminada.

Reforzando la idea anterior (Sharma, 1996) resumió la aplicabilidad de

este método en los siguientes tres objetivos:

Identificar un conjunto de variables que mejor discrimine o separe

entre los grupos.

Identificar un nuevo eje Z, tal que, la nueva variable Z, dada por

la proyección de las variables originales sobre este eje, provea la

máxima separación o discriminación entre 2 grupos, vale decir, un

hiperplano que permita la máxima separación entre grupos para el

caso multidimensional.

Clasificar futuras observaciones dentro de uno de los grupos. Es

decir su capacidad de pronóstico.

El Análisis Discriminante entonces, por lo anterior, entra entre las

técnicas definidas como Clasificación Supervisada, pues a partir de una

muestra de observaciones previamente bien clasificados se permite la

clasificación de nuevos datos adicionales.

27

Este método es de amplia aplicación en diversos campos, y para el área

financiera tiene especial aplicabilidad en el análisis del credit-scoring y

del estudio del problema de la turbulencia financiera en el sistema

bancario. (Altman et al, 1994); (Atiya, 2001); (Foster et al, 1999).

El Análisis Discriminante Clásico se conoce como el Método de

Discriminación de Fisher en honor a quien inicialmente lo desarrollo

partiendo de una relación lineal de discriminación. Esta relación de

discriminación lineal viene dada por la siguiente expresión Z=X´γ,

donde X representa el vector de variables observadas, γ representa los

pesos de la función discriminante y Z es la función discriminante. De lo

anterior se describe que Z resultará como una variable dependiente

indicadora y no numérica.

La variable indicadora puede tomar dos o más valores, no obstante, el

caso más común es el que emplea dos valores: cero y uno, en este caso

se conoce como variable dicotómica.

Por ejemplo, la variable Z podría ser una variable indicadora, que

denota la ocurrencia o no de un evento.

En este contexto, el Análisis Discriminante se emplea para determinar

cuál o cuáles variables contribuyen a discriminar entre dos o más grupos

que se observan en la práctica.

En resumen, la idea básica que subyace en el Análisis Discriminante es

determinar si unos grupos difieren en función de la media de una

variable, y emplear luego esa variable para predecir la pertenencia de

una nueva observación a determinado grupo.

El problema del Análisis Discriminante, visto desde el punto de vista del

análisis de variancia, consiste en responder a la pregunta de si dos o

más grupos son significativamente diferentes uno de otro respecto a la

media de una variable en particular.

28

Debe tenerse presente que si la media de una variable es

significativamente diferente en varios grupos, puede decirse que esta

variable discrimina entre grupos.

Al igual que en el caso de conglomerados, análisis factorial y de

correlación canónica, el Análisis Discriminante realiza diferentes

desgloses de las variancias de un conjunto de datos para someterlos a

una serie de pruebas estadísticas y determinar el grado de asociación

entre esas variancias y, por tanto, entre las variables. De esta forma, la

mejor discriminación se tiene al maximizar la relación

el_grupo)_dentro_dVar(upos)_entre_grVar(

ZZ

En el caso de una única variable explicativa, la prueba final de

significancia de si esta variable discrimina o no entre grupos es una

prueba F, que es básicamente una razón de las variancias entre grupos

sobre el promedio de la variancia dentro de los grupos. Si la variancia

entre grupos es significativamente mayor, deberá haber diferencias

significativas entre las medias.

Para el caso de más de una variable, se busca determinar cuál o cuáles

de ellas contribuyen a la discriminación entre grupos. En este caso, se

tiene una matriz de variancias y covariancias. Puede compararse las

matrices con una prueba F multivariable, para determinar si hay o no

diferencias significativas en las medias entre grupos.

En el caso particular de función discriminante para dos grupos, tal

función puede verse como una caso de análisis de regresión lineal

múltiple. Si se codifican los dos grupos como 1 y 2, y se emplea tal

variable como dependiente en un análisis de regresión lineal múltiple,

pueden obtenerse resultados similares a los que se obtendrían de un

análisis discriminante. En general, en el caso de dos grupos se ajusta

una ecuación lineal del tipo

GRUPO=a+b1x1+b2x2+……..+bmxm,

29

donde a es una constante y b1 a bm son coeficientes de regresión. La

interpretación de estos resultados es similar a la de un modelo de

regresión múltiple. Los más significativos son lo que contribuyen más a

la predicción de pertenencia a un grupo.

Para efectuar el análisis, es posible emplear diferentes procedimientos,

como por ejemplo:

Análisis discriminante “Stepwise”: probablemente la forma más

común de aplicación es incluir muchas medidas en el estudio, para

determinar las que discriminan entre grupos. Visto de otra forma,

se desea construir un modelo de cómo se puede lograr predecir de

la mejor forma a cuál grupo pertenece una observación o caso

particular.

Análisis discriminante “Stepwise” hacia adelante: la idea es

construir un modelo paso a paso, revisando todas las variables y

evaluando cuál puede contribuir más a la discriminación entre

grupos. Esta variable podrá ser incluida en el modelo.

Análisis discriminante “Stepwise” hacia atrás: es posible incluir

primero todas las posibles variables en el modelo, y luego en cada

paso, eliminar la variable que contribuye menos a la predicción de

la pertenencia a un grupo. Como resultado de un modelo de

Función Discriminante exitoso, deben mantenerse en él las

variables significativas para discriminar.

Cuando es posible identificar más de dos grupos, puede estimarse más

de una función discriminante similares a la presentada anteriormente.

Por ejemplo, cuando se tienen tres grupos, puede estimarse: a) una

función para discriminar entre grupo 1 y grupos 2 y 3 combinados, y b)

otra función para discriminar entre grupo 2 y grupo 3.

En la práctica, cuando se realiza un análisis discriminante entre varios

grupos, no debe especificarse cómo combinar los grupos para formar las

diferentes funciones. Los programas computacionales automáticamente

30

las conforman de manera que la primera es la que ofrece la mayor

discriminación como un todo entre grupos, la segunda provee una

menor y así sucesivamente. Las funciones son independientes u

ortogonales, esto es, su contribución a la discriminación entre grupos no

se sobrepone.

Puede probarse el número de variables que agregan significancia a la

discriminación entre grupos. Solo aquellas que sean estadísticamente

significativas deben ser usadas para interpretar, las no significativas

deben ignorarse.

En resumen, cuando se interpretan funciones discriminantes múltiples,

que surgen del análisis con más de dos grupos y más de una variable,

se puede probar primero la significancia estadística de las diferentes

funciones, y considerar solo las significativas para las siguientes

pruebas. Luego, se observan los coeficientes b estandarizados

(expresión anterior) para cada variable y para cada función significativa.

Cuantos mayores sean, más alta es la contribución a la discriminación

especificada por la respectiva función. Finalmente, pueden verse las

medias para las funciones discriminantes significativas para determinar

entre cuáles grupos discrimina la respectiva función.

Es importante tener presente unos supuestos implícitos a este tipo de

análisis:

Distribución normal: se asume que los datos para las variables

representan una muestra proveniente de una distribución normal

multivariable. No obstante, el no cumplimiento de este supuesto

no es problema para el análisis.

Homogeneidad de variancias y covariancias: se supone que las

matrices de variancias y covariancias son homogéneas entre

grupos; de nuevo, si no se cumple tampoco se generan

problemas.

31

Correlaciones entre medias y variancias: el principal obstáculo

para la validez de las pruebas de significancia se presenta cuando

la media de las variables entre grupos están correlacionadas con

las variancias. Si hay gran variabilidad en un grupo con alta media

en algunas variables, entonces esas medias grandes no son

confiables. Sin embargo, la prueba de significancia global está

basada en variancias ponderadas, es decir en variancias promedio

entre todos los grupos. La prueba de significancia de las medias

relativamente grandes (con grandes variancias) estará basada en

variancias ponderadas relativamente menores, resultando

erróneamente en significancia estadística. Esto ocurre cuando un

grupo tiene unos pocos valores extremos que afectan mucho la

media y aumentan la variabilidad.

Variables no redundantes: se supone que las variables empleadas

para discriminar entre grupos no son completamente redundantes,

por ejemplo que una variable no sea la suma de otras dos que

también están en el modelo.

En la figura siguiente se puede observar un esquema funcional del

preprocesamiento de los datos financieros de la banca comercial

basados en la aplicabilidad del análisis discriminante. Los valores

obtenidos de la agrupación en dos grupos de la banca comercial de

acuerdo a sus razones financieras, será empleado como patrones de

salida en la construcción del modelo de red neuronal no supervisado

usando función de base radial. El propósito de esta construcción de

modelo es el lograr un modelo con un alto grado de aprendizaje que se

pueda generalizar a todo el dominio del problema real bajo el mismo

contexto de las razones financieras empleadas para el entrenamiento. El

resultado de este buen desempeño es un mecanismo de pronóstico en el

32

cual un nuevo ejemplo no visto por la red en el tiempo pueda ser

separado en uno de los grupos con un alto grado de aceptación.

Figura 1. Discriminación de los bancos en dos grupos

33

Las Redes Neuronales Artificiales: su competencia como técnica

de clasificación mediante función de base radial.

Una red RBF está conformada de tres capas: a) la capa de entrada que

sirve para los ejemplos o patrones de entrenamiento y prueba, b) la

capa oculta completamente interconectada entre todos sus nodos con la

capa de entrada y activada a través de la función radial (gaussiana) y,

c) la capa de salida, también completamente interconectada a la capa

oculta y activada a través de una función lineal continua. Así, una red

RBF tiene como objetivo el de ejecutar una correspondencia no lineal

entre los patrones de entrenamiento que definen el espacio de entrada

al espacio oculto definido por la capa oculta y una correspondencia

lineal desde este espacio al espacio de salida. Es decir definir a la salida

una superficie que describa las entradas.

El entrenamiento no supervisado, a diferencia de la red usando

backpropagation (RN-RP), es solamente hacia delante. De este modo, la

salida z de una red RBF, en general, está influenciada por una

transformación no lineal originada en la capa oculta a través de la

función radial y una lineal en la capa de salida a través de la función

lineal continua.

1x

2x

nx

1−nx

•

•

•

•

z1

-1

FunciónGaussiana

FunciónLinealContinua

Figura 2. Arquitectura típica de una red neuronal con funciones de base

radial

34

En la topología particular de una RBF se distinguen los nodos ocultos

que contienen una función base radial o función gaussiana, la cual tiene

como parámetros a un centro y un ancho. El centro es único para cada

función radial involucrada en la capa oculta, y por otro lado, el ancho

que identifica la amplitud de la campana de gauss originada por la

función radial, es decir, la desviación estándar de la función radial.

Algunos autores (Broomhead and Lowe, 1988) consideran a este ancho

como un valor constante para cada una de las funciones radiales

consideradas en la capa oculta y de este modo, contribuyendo a

simplificar los pasos de construcción del modelo de entrenamiento de la

red.

El primer cálculo efectuado en la capa oculta es hallar para cada nodo

de la capa oculta la distancia radial (distancia euclidiana) d entre el

vector de entrada x y el centro de gravedad c de ese mismo nodo, para

cada una de las n observaciones. Es decir:

2)(.......2)22(2)11( ncnxcxcxd −++−+−=−= cx

Este valor d es calculado para cada nodo oculto y es un componente de

la entrada para activar la función radial G(•) correspondiente a cada

nodo. La función radial G(•) más comúnmente empleada es exp(-r2),

donde r es el contenido evaluado en cada nodo de la capa oculta. En

este caso particular, este contenido es la distancia euclidiana d. De ahí

que la expresión anterior sería exp(-d2).

Una de las derivaciones del modelo RBF es emplear el ancho (desviación

estándar) para activar la función G(•). En este caso se estaría

trabajando con algo como exp(-d2/a), donde a es el ancho para ese

nodo oculto.

Entre la capa oculta y la capa de salida se derivan un conjunto de pesos

w que se verían afectados de acuerdo al algoritmo de aprendizaje. En

35

este caso particular. sería la combinación lineal entre los pesos y la

resultante de cada función radial para determinar la salida z.

1x

2x

nx

1−nx

•

•

•

•

z1

-1

Función

Gaussiana Gi(•)

FunciónLinealContinua

( )∑ − 2ii cx

( )•∑ iiGw

1w

2w

1−nw

nw

Figura 3. Componentes de una RBF: función de activación en ambas

capas, pesos sinápticos

En definitiva, seria ( )•∑= Giwz , donde G(•) es la salida de la capa

oculta y se corresponde con la función radial aplicada a la distancia

euclidiana en cada una de las unidades ocultas.

Del resultado de este tipo de entrenamiento podemos observar que:

Los valores de entrada se recomiendan que previamente sean de

algún modo transformados a una escala.

Debido a que esta superficie es desconocida, se acude un proceso de

entrenamiento usando ejemplos representativos tanto para la

entrada como para la salida. Es decir, muestras que incluyan

ejemplos de todo el dominio del problema.

En la capa oculta, en la medida que los valores de entrada se

parezcan más a un centro su distancia tenderá a cero y de este modo

36

la función gaussiana se dispararía a las vecindades de uno. Por otro

lado, en la medida que los valores de entrada no se parezcan a su

centro la distancia será mayor y la función radial parecería tender a

cero. Este proceso es una clasificación no lineal de las entradas.

En la capa de salida del modelo RBF, los valores obtenidos en las

salidas de la capa oculta serían transformados por la función lineal

que permite aproximar los valores z a los valores deseados, mediante

la combinación lineal que se sucede en esta capa entre sus pesos y el

resultado de aplicar la función radial. Es decir, ( )•∑= Giwz .

El tiempo de entrenamiento es substancialmente inferior al requerido

por otros algoritmos. Es una pasada hacia adelante en la mayoría de

los casos. La diferencia la establece si se incorpora en la salida del

modelo de entrenamiento, una supervisión a través del control del

error que se produce entre los valores calculados y los observados,

conduciendo a una retropropagación del error.

De acuerdo a este concepto, la red RBF ha originado variantes de cálculo

como producto fundamentalmente de las siguientes limitaciones que se

han presentado en algunos casos:

de no conocer los centros (a veces el ancho) para cada función radial,

de situaciones de singularidad presentes en la implementación del

algoritmo con problema de dimensionalidad;

de un gran volumen de entradas haciendo inmanejable la aplicación

del algoritmo. Se presentan problemas de regularización (Haykin,

1995).

La función que puede describir sigue la siguiente forma:

⎟⎠⎞

⎜⎝⎛ −∑= ixxx GiwF

N

1)(

37

donde la función F(x) es una combinación lineal entre la función no

lineal G(•) y los pesos. G(•) es de la forma exp(||xj-xi|) y la expresión

anterior, en forma matricial sería Gw = z.

Cada elemento gj,i = g(||xj-xi||), j,i=1….N

z = [ z1, z2 z3, ……, zN]T

w = [w1, w2, w3, …..,wN]T

Provistos que todas las observaciones son distintas, entonces G se

podría decir que es positiva definida y por lo tanto los pesos podrían ser

calculados mediante la inversa de G. Es decir:

w = G-1z

Sin embargo, se puede correr el riesgo de que la inversa de la matriz de

interpolación G está próxima a ser singular. En este caso se procedería

mediante la teoría de la regularización para perturbar la matriz

mediante G = G + λI. (Haykin, 1995)

De esta manera sería un aprendizaje directo, provocando cambio a los

pesos que están ubicados entre la capa oculta y la capa de salida.

La aplicabilidad de ambas técnicas, análisis discriminante y redes

neuronales de funciones de base radial, describen un modelo híbrido que

incluye los datos construidos en una escala homogénea como patrones

de entrada definidos por las razones financieras, y el resultado de

utilizar el análisis discriminante para obtener los patrones de salida. La

figura 4 describe funcionalmente la aplicabilidad de la RBF y en la figura

1 la construcción de los patrones de salida. Los patrones de entrada se

construyen transformando las razones financieras en un nuevo conjunto

de datos discretizados, tal que se pueda unificar las escalas de medida.

Se aplicará el método de discretización supervisado CAIM (Class-

Attribute Interdependence Maximization) (Ching et al., 1995); (Kurgan

et al., 2001). CAIM es uno de los más reciente métodos de

discretización dando muy buenos resultados en un tiempo de cómputo

bastante reducido. Este método divide el rango de la variable, en este

38

caso la razón financiera, en un número muy pequeño de intervalos que

podría se encontrados automáticamente. Si la escala de intervalos se

desea dejar fija, entonces se puede aplicar una variante del método

(Campos et al., 2004).

X1 X2 X3 …... Xp

B1 B2 B3…..Bn

Eje

mp

los

de e

ntr

ad

a

Banco 1

Banco 2

.

Banco n

Razones Financieras

Banco 1

Banco 1

Banco 1

1986

al 2

004

Nueva variable

Grupo 1

Grupo 2

. .

Grupo n

AGRUPACIÓN DE LA BANCA

Z

ZFunción Gausiana

CLASIFICACIÓN DEL RIESGO

Banco 1

Banco 2

.

Banco n

Banco 1

Z

Banco 1

Banco 1

1986

al 2

004

Eje

mp

los

de s

ali

da

DATOS ORIGINALES DE LOS BANCOS

Figura 4. Pronóstico de riesgo clasificado en categorías

39

Referencias.

Agresti, A. (1990). Categorical Data Analysis. John Wiley and Sons Ltd.,

New York.

Amir F. Atiya, Senior Member, IEEE. (2001),Bankruptcy Prediction for

Credit Risk Using Neural Networks: A Survey and New Results. IEEE

TRANSACTIONS ON NEURAL NETWORKS, VOL. 12, NO. 4, JULY 2001

Broomhead, D. S., and D. Lowe, (1988). Multivariable functional

Interpolation and adaptive networks. Complex Systems, vol. 2, pp. 321–

355.

Campos, R., Ruiz, F., Agell, N and Angulo, C. (2004). Financial Credit

Risk Measurement Prediction Using Innovative Soft-computing

Techniques. International Conference on Computational Finance And its

Applications. Bologna, Italy, 2004.

Ching, J.Y., Wong, A.K.C. and Chan, K.C.C. (1995). Class-Dependent

Discretization for Inductive Learning from Continuous and Mixed Mode

Data, IEEE Transactionson Pattern Analysis and Machine Intelligence, 17

(7), pp. 641-651, 1995.

Colmenares G. and Pérez R. (1999). A Reliable Method to Reduce

Observations and Variables when Building Neural Network Models.

CAIP'99. San José. Costa Rica.

Hair, J., Anderson, R., Tatham, R. and Black, W. (1998). Multivariate

Data Analysis. Prentice Hall, 5th Ed.

Haykin Simon. (1995). Neural Networks. A comprehensive foundation.

Macmillan College Publishing Company, Inc.

Haykin Simon. (1998). Feedforward: Neural Networks: An Introduction.

Chapter 1. Manuscrito

Kurgan, L. and Cios, K.J. (2001). Discretization Algorithm that Uses

Class-Attribute Interdependence Maximization, Proc. of the 2001

40

International Conference on Artificial Intelligence (ICAI-2001): Las

Vegas, pp.980-987, 2001

Muñoz S., Evelyn. (1998). La técnica de Análisis Discriminante: Una

aplicación para el área bancaria. Banco Central de Costa Rica, DIE-NT-

03-98

Sharma Subash. (1996). Applied Multivariate Techniques. John Wiley.

USA

Xari Rovira, Núria Agell, Mónica Sánchez, Francesc Prats and Xavier

Parra. (2002). An Approach to Qualitative Radial Basis Function

Networks over Orders of Magnitude. This work was supported by the

MCyT (Spanish Ministry of Science and Technology) MERITO project

(TIC2002-04371-C02).

Wang Z. Xue (1999). Data Mining and Knowledge Discovery for Process

Monitoring and Control. Springer-Verlag. London.

41

MODELO DE IDENTIFICACIÓN DE INDICADORES DE GESTIÓN DE RIESGO FINANCIERO MEDIANTE LA REDUCCIÓN DE VARIABLES

O RAZONES FINANCIERAS

Ruth Guillén, Alexis Melo Resumen

Una opción en las técnicas multivariantes es la de ayudar a comprender

el dominio de un problema real mediante características resaltantes en

ese mismo dominio que consolidan la información dispersa en los

fenómenos observados, bien sea individual o conjuntamente. Mediante

Análisis de Componentes Principales (ACP) se puede disminuir el efecto

de redundancia o dispersión de los fenómenos originales observados a

través de nuevas características con poca pérdida de la información

aportada originalmente. Esta reducción de variables además de crear

nuevas características para el análisis, permite el desarrollo de modelos

de pronóstico en los que el trabajo de cómputo se disminuye

notablemente. Algunos trabajos han demostrado que produce excelente

resultado y más aún, un excelente desempeño de pronóstico cuando

estas nuevas características son los patrones de entrenamiento de los

modelos de redes neuronales mediante el uso del algoritmo no lineal de

retropropagación del error (RN-RP). Adicionalmente, y como aporte

particular de esta investigación, se está incorporando como patrones de

salida de este modelo híbrido (ACP y RN-RP), los valores obtenidos en

una clasificación previa realizada mediante análisis discriminante (AD).

El preprocesamiento de los datos se complementa con la redefinición del

conjunto de entrada que son las razones financieras transformadas a

unas características de origen totalmente nuevo y de variables

totalmente independientes, y un conjunto de salida con valores

cualitativos. El desempeño de este modelo está siendo evaluado

mediante el uso del conjunto ce datos construido para tales fines. El

logro fundamental de esta iniciativa es la de vincular ambas técnicas

42

para obtener un mecanismo automático de pronóstico de riesgo y la

eventual capacidad de generalizar el comportamiento de un banco en

particular en un período dado

Palabras claves: Entrenamiento supervisado, análisis de componentes

principales, retropropagación del error, riesgo financiero.

Introducción.

El reconocimiento de patrones en un dominio de problema real, desde

un punto de vista estadístico, se refiere fundamentalmente a la

selección o extracción de características en la fuente original de datos a

través de las variables observadas. Esta selección se rota a un espacio

donde el conjunto de los datos que describe todas las características

observadas, es transformado a uno nuevo donde se conserva la misma

dimensión del espacio original pero provee de una nueva información

más vinculada al conjunto original de características descritas por los

datos. Sin embargo, de acuerdo al tipo de medición que se haga de las

variables observadas, puede variar la utilidad de las técnicas que

permiten este tipo de transformación. En los métodos multivariantes,

Análisis Discriminante (AD), Análisis de Correspondencia (AC) y Análisis

de Componentes Principales (ACP) son las técnicas más comúnmente

utilizadas, pero cada una de ellas requieren de un diferente tipo de

medición de las características de las variables. Tal es el caso de AD y

su fuente de datos lo conforman variables de tipo categórico o discreto,

ACP y variables continuas o cuantitativas y AC con una mezcla de

ambos tipos de medición. (Sharma, 1996).

En este caso particular, además de aprovechar las bondades de la

técnica ACP para preparar nueva información mediante la interacción de

las variables originales por una suerte de combinación lineal entre ellas,

explicando en su contenido integral nueva información latente, se hace

43

énfasis en el significado de reducir significativamente las variables

originales a esas variables latentes sin sacrificar mayor cantidad de

información. En este contexto y en el caso de lo que se investiga, se

realizó una buena contribución con un muy excelente resultado de

pronóstico de riesgo de quiebra desde el punto de vista estadístico. La

interpretación de las variables latentes en el nuevo espacio ortogonal

permitió de manera descriptiva identificar individuos (banca comercial)

propensos a la quiebra como consecuencia de analizar los resultados de

los componentes principales obtenidos como variables latentes. Sin

embargo, se corre con el riesgo de no poder explicar el dominio original

del problema debido a la pérdida de porciones de la varianza explicada

presente en los datos originales, como consecuencia de la presencia de

variables originales con un alto grado de interdependencia y que no

representan un aporte de información significativo. (Ayesterán, et al.,

1996)

En este estudio se aprovecha otra utilidad práctica de la técnica ACP. La

reducción de las variables originales a un nuevo conjunto tal que sean

las variables explicativas o patrones de entrada, en los modelos de

pronósticos, tales como Regresión Lineal Múltiple (RLM) y las redes

neuronales. Hay varias experiencias que han demostrado un mejor y

eficiente desempeño de los modelos usando estas variables reducidas al

disminuir el tiempo de cómputo y el de mantener o mejorar la capacidad

de pronóstico.

Atiya hace un buen inventario de resultados evaluativos de la aplicación

de este tipo de técnicas, e inclusive algunas no paramétricas, en el

análisis del riesgo bancario, fundamentalmente en clasificación y

predicción. (Atiya, 2001). Las técnicas multivariantes, en las mayorías

de los estudios revisados, fueron aplicadas a grupos de variables

asociadas a las razones financieras, y a su vez, comparadas con

métodos numéricos emergentes demostrando su utilidad.

44

ACP, en este estudio, actuará como agente preprocesador de datos, al

ser utilizado como método de reducción de variables para conformar el

conjunto definitivo de patrones de entrada para el modelo de pronóstico.

Algunos estudios realizados de reducción de variables, tales como

Kramer, 1992; Tan et al., 1995, Colmenares, 2004, han demostrado que

este mecanismo es de muy alta utilidad para la conformación de los

patrones de entrenamiento y prueba usados en los modelos de redes

neuronales, al reducir en un alto grado el nivel de complejidad de la

arquitectura y construcción de estos modelos. Por ejemplo en Tan se

puede observar que mediante un algoritmo no lineal donde combina ACP

y redes neuronales, los ejemplos originales son reducidos a nuevas

características que pueden ser valores de entrada para la preparación de

modelos de redes neuronales. En Colmenares, por otro lado, mediante

combinaciones de técnicas estadísticas de muestreo y ACP, se pueden

lograr conjuntos muy reducidos de datos, altamente representativos del

dominio del problema, que resultan ser eficientes ejemplos de entrada

para los modelos de redes neuronales. Lo importante a destacar en

estos casos, inclusive en Kramer, es el de incorporar la no linealidad

inherente a los problemas reales introduciendo el concepto de redes

autoasociativas para realizar reducción de variables en el mismo espíritu

que lo hace ACP. De hecho, Kramer desarrolla un algoritmo totalmente

no paramétrico en el que se reducen las variables originales a un nuevo

conjunto, incorporando tácitamente el concepto de curvas principales.

Este método es un proceso de transformación a nuevos atributos o

componentes principales no lineales, que a su vez son replicados y

transformados nuevamente a representaciones muy parecidas a las que

los originaron, garantizando así una aceptable sumarización de las

características originales en nuevos conjuntos sustancialmente

reducidos, pero que logran describir el contenido informativo original.

45

Por otro lado, los patrones de salida, similar a los que conforman la

entrada, son estimados mediante análisis discriminante, indicando en

cada patrón, la característica cualitativa de riesgo dependiente del

patrón de entrada que lo origina. Este preprocesamiento de los fuente

original de datos permite además de construir un modelo de redes

neuronales con funciones de base radial (Melo et al.), ser fuente de

datos de salida para el conjunto de modelos de red neuronales con

funciones logísticas que se aplicará en este estudio. Es decir, un modelo

híbrido conformado por ACP y redes neuronales usando el algoritmo de

retropropagación del error (RN-RP).

En las siguientes secciones se describen ambas técnicas, y el empleo de

ellas como componentes del modelo que se construye para el pronóstico

de riesgo bancario.

ACP aplicado al riesgo bancario.

La selección o extracción de características en la serie de datos está

vinculada a procesos numéricos donde el espacio original sufre una

transformación resaltando un nuevo conjunto efectivo y reducido de

características que retienen la mayor cantidad de información contenida

internamente en los serie de datos originales. Es decir, hay una

reducción de dimensionalidad del espacio de los datos originales. Esto es

básicamente el propósito de esta técnica donde la varianza total juega

un papel importante en esta técnica.

Esta metodología de reducción de variables ha mostrado excelentes

resultados. El beneficio alcanzado reutilizando fuentes históricas de

datos, es el de permitir la disminución del tiempo de cómputo empleado

en la construcción y uso de los modelos debido al empleo de las técnicas

de preprocesamiento que seleccionan confiablemente la menor cantidad

de observaciones y variables posible. Por ejemplo, el método

Stratified/PCA (Colmenares, 2004), como técnica de preprocesamiento,

46

puede reducir una matriz original de observaciones y variables a un

subconjunto apreciablemente menor que sus originales con un nivel de

confiablidad y consistencia bastante altos como para poder ser aplicados

sobre fuentes históricas de datos. Adicionalmente, estos conjuntos

reducidos de datos empleados en la construcción de modelos no lineales

usando RNA, han mostrado tener similar capacidad de predicción y/o

clasificación que los construidos con el conjunto total de los datos

originales. De igual modo, mostraron ser mucho más consistente en sus

resultados después de varias réplicas con diferentes conjuntos reducidos

de datos. (Dong et al. 1995), (Tan et al. 1995).

1986

al 2

004

1986

al 2

004

Figura 1. ACP como técnica de reducción de variables

47

Enfoque analítico de la reducción de las variables originales Sea X, una matriz de orden p-dimensional conformada por p variables

con N observaciones para cada variable.

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

= .

..............

..

..

..

321

3333231

2232221

1131211

NpNNN

p

p

p

xxxx

xxxxxxxxxxxx

X

Mediante Componentes Principales (ACP), el conjunto total de p

variables podría ser reducido a un nuevo conjunto enteramente

independiente de nuevas variables (algunas veces conocidas como

variables latentes) expresada en un matriz resultante Z de orden k.

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎥

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎢

=

NkNNN

k

k

k

zzzz

zzzzzzzzzzzz

..............

..

..

..

321

3333231

2232221

1131211

Z

El nuevo conjunto de variables define un espacio k-dimensional mucho

más reducido que el original donde k<<p, del cual se le puede hacer

algunas consideraciones:

Los valores entre sí, de las nuevas variables presentes en la matriz Z

no están correlacionados. Es decir las nuevas variables son

completamente independientes.

A pesar de que la dimensión de la matriz Z es igual a la de la matriz

X, su utilidad práctica preferiblemente se reduce a una matriz de

dimensión mucho menor (k<<p).

La entrada principal al ACP es la matriz de covarianza Σ . Sin

embargo, las variables originales podrían ser estandarizadas (media

48

cero y varianza uno) para eliminar el efecto de la varianza relativa de

las variables originales. En este caso, se puede sustituir como

entrada principal a ACP a la matriz de correlación R por la matriz de

covarianza. Esta sustitución es útil para eliminar las altas varianzas

generadas por las variables involucradas con diferente escala en las

unidades de medida.

La traza de la matriz de correlación es igual a la varianza total de las

variables transformadas.

Los autovectores de la matriz de covarianza o de correlación definen

los nuevos ejes en el espacio k-dimensional.

La cantidad de componentes principales es igual a la cantidad de

variables originales consideradas en el ACP. Es decir, son p

componentes.

Cada zj es una variable transformada de las xi(s) variables

originales. Siendo i=1,2,3….,p. Estas nuevas variables contienen los

valores de las variables transformadas.

ACP captura solamente linealidad entre las variables. Por eso se le

conoce como una técnica que transforma las variables originales

mediante un método de combinación lineal. Es decir las zi son

combinación lineal de los componentes y las variables originales xi.

Los primeros componentes obtenidos mediante ACP explican la

mayor cantidad de la varianza total de las variables originales. Es

decir, agrupa la mayor cantidad de información que puedan

suministrar las variables originales.

Habiendo definido X y Z, con p variables (originales y transformadas) y

N observaciones, consideremos adicionalmente la matriz de covarianza

de la matriz X; entonces ACP permite calcular mediante la matriz Σ Σ

un nuevo conjunto de p variables no correlacionadas (z) tal que ellas

sean combinación lineal de las variables originales.

49

De este modo, para cualquier observación i en X dado por

[ ]p321 x..xxx , existe una función lineal Z = a’ix, para todo

i=1…,N. Es decir,

pip3i32i21i1j xa........xaxaxaz ++++= , j=1,…,P, i=1,…N, donde:

a’i es un vector transpuesto de pesos o parámetros del i-ésimo

componente principal.

aj es un vector de pesos o parámetros del el j-ésimo componente

principal o autovector de Σ para formar la combinación lineal de las p

variables originales.

aj tiene que ser ortogonal y ortonormal. Es decir a’iaj = 0 y a’iai = 1.

zj se corresponde con los valores nuevos de las variables originales.

La varianza del j-ésimo componente es

V(zj) = var(a’ix) = a’iΣa’i, para todo j=1,…,P, i=1,…N.

Las varianzas resultantes para cada componente son decrecientes y en

estricto orden: V(z1) > V(z2) > V(z3) >… V(zp). Su suma representa la

variación total de las variables originales.

En general, el objetivo es entonces el de encontrar los componentes

principales aj tal que a’jΣaj es un máximo sujeto a que a’jaj = 1, donde

j=1,…P. Usando Lagrange para el j-ésimo componente, se tiene:

L = a’jΣaj – λj(a’jaj – 1),

λj es el multiplicador y la parcial con respecto al componente es

jjjj

a2λa2aL

−Σ=∂∂

.

Igualamos a cero la expresión anterior y podemos calcular los valores de

λj mediante ( ) 0aIλΣ jj =− , donde IλΣ j− =0 para que aj ≠ 0. Existen p

raíces para el polinomio. Estas raíces son los autovalores de y son

λ

Σ

1>λ2>λ3>….>λp. Cada valor de λj permite el cálculo de su

correspondiente autovector aj mediante ( ) 0aIλΣ jj =− .

50

De ahí, el primer autovector a1 le corresponde el primer autovalor λ1, el

cual s obtiene mediante ( ) 0aIλΣ jj =− y la condición de ortonormalidad

a’1 a1 = 1; a su vez a1 es el autovector correspondiente a la varianza

más grande de Σ , 1111 λΣaax)avar( =′=′ , y xaz 11 ′= . El segundo

autovector a2 es la segunda varianza más grande y así

sucesivamente. Además, a

Σ

2 es ortonormal, 1aa 22 =′ , a2 ortogonal a a1,

, y la varianza de z0aa 12 =′ 2 es 2222 λΣaax)avar( =′=′ . En general, El j-

ésimo aj is ortonormal. 1aa jj =′ , ortogonal al resto de los autovectores

previos ( , k = 1,2,3…j-1) y la varianza de z0aa kj =′ j es

. Del mismo modo, las varianzas para los p

autovectores es decreciente tal que V(z

jjjj λΣaax)avar( =′=′

1) > V(z2) >……> V(zp).

Finalmente, los autovectores son los componentes principales y los

autovalores la varianza de la nuevas variables. Así, las nuevas variables

son , o en notación matricial sería, Zxaz jj ′= =X A. Más detalles en

(Jolliffe, 1986), (Sharma, 1996).

En conclusión, contrario a X, Z está formado de vectores columnas

totalmente ortogonales, es decir por variables no correlacionadas. El

procedimiento general para calcular el ACP es como sigue:

La primera variable transformada z1 es la combinación lineal de X

describiendo la mayor cantidad de variabilidad medida en

mediante su autovalor asociado λ

Σ

1 dado por z1 = Xa1, donde

. )Σaamax(λ 111 ′=

La segunda variable transformada z2, es entonces la combinación

lineal z2=Xa2, la cual describe la segunda varianza más grande de

. Esto es, maximiza la varianza para Σ 22Σaa′ , sujeta a que z2 no

debe estar correlacionado con z1. Es decir, z1z2 = 0.

En general, la i-ésima variable transformada zi es zi = Xai y

corresponde con la i-ésima varianza más grande de Σ , dada por

51

iiΣaa′ , sujeta a que zi no debe estar correlacionado con el resto de

las variables en Z. Es decir, zizj = 0, j=1,….p con i≠j y zizi = 1.

Existe un método matricial directo conocido como Valor de

Descomposición Simple (VDS) que puede ayudar a resolver ACP.

Supóngase que se tiene la misma matriz original X de N observaciones

(filas) y p variables (columnas). La descomposición espectral de esta

matriz X puede ser escrita de la siguiente manera:

X = QSE',

Donde E es una matriz ortogonal pxp cuyos autovectores son X’X, S es

una matriz diagonal pxp formada por los autovalores de X’X, Q es una

matriz ortogonal Nxp. Además, E y Q son ortonormales, es decir EE’ =

1 y QQ’ = 1. De igual modo, el producto X’X forma una matriz simétrica

y puede ser escrito mediante la descomposición espectral de la siguiente

manera,

X'X = (QSE')'(QSE') = ES'SE' = EΛE',

Nuevamente, sea la matriz de covarianza de X; puesto que es una

matriz cuadrada y simétrica, entonces la podemos expresar mediante la

descomposición espectral como Σ = EΛE', donde la diagonal de Λ está

formada por el cuadrado de los p autovalores de Σ . E es una matriz

ortogonal pxp donde la i-ésima columna corresponde al i-ésimo

autovalor.

Σ Σ

Las variables transformadas, quedan definida como por Z y Z = XE, que

no son más que los valores de X proyectados sobre la nueva base

ortonormal definida por los autovectores en E. La matriz de covarianza

de estas variables transformadas en Z, puede estar expresada por

E(Z'Z) = (XE)'(XE) = E'X'XE = E'ΣE.

De este modo, al sustituir a Σ , la matriz de covarianza será

E(Z'Z) = E'EΛE'E = Λ.

52

Esto es, los autovalores λ1, λ2… λp correspondientes a la diagonal de Λ,

representan la varianza para cada una de las variables transformadas en

Z, siendo no correlacionadas y en consecuencia, Z es una matriz no

correlacionada.

Otra particularidad de los ACP es que la varianza total de Z es igual a la

varianza total de X. La varianza total de Σ corresponde a la suma de la

varianza de cada una de las variables originales en X y está dada por su

propia traza, tr(Σ)=∑ . Con la ayuda de la propiedad que indica que

tr(AB) =tr(BA), se puede mostrar que la varianzas de X y Z son iguales

como sigue:

=

p

j 1

2jjσ

tr( ) = tr(EΛE') = tr(E'EΛ) = tr(Λ). Σ

Si las variables originales son estandarizadas, entonces la matriz de

correlación R sería usada en sustitución de Σ . En este caso, la

descomposición espectral para R sería R = EΛE'. De igual manera que

para la matriz de covarianza, Z = XE y E(Z’Z) = Λ. Adicionalmente,

para este caso en particular, la suma de los autovalores en Λ es igual a

p y es igual a la suma de de los elementos de la diagonal de R.

Lo que es lo mismo tr(R) = rango(R) = tr(Λ) = p. Es importante

tener en cuenta que los autovectores y los autovalores son sensibles a

los cambios de escala. Σ podría mostrar severos cambios por esta

misma razón. R, por el contrario, omite este problema y de ahí que los

autovalores y autovectores originados por R o Σ son diferentes.

Las Redes Neuronales Multicapas con funciones logísticas como

función de activación y el algoritmo de retropropagación del

error.

En el entendido de que es un procesador paralelo distribuido en los que

se almacena el conocimiento, emula su símil biológico en dos aspectos

fundamentalmente: a) el conocimiento es adquirido a través de un

53

proceso de aprendizaje y b) la fortaleza de la interconexión de las

neuronas artificiales está descrita en los pesos sinápticos.

Variables Transformadas

Nuevas variables de los bancos

Banco 1

Banco 2

.

.

Banco n

Banco 1

Z1 Z2 ... Zk

Banco 1

Banco 1

1986

al 2

004

Banco 1

Banco 2

.

.

Banco n

Variables Macroeconómicas

M1 M2 ...Mk

Eje

mp

los

de e

ntr

ad

a

Variable Categórica Eje

mp

los

de s

alid

aBanco 1

Banco 2

.

.

Banco n

……………….

……………….

Figura 3. ACP y RN-RP para la construcción del modelo híbrido de

pronóstico

Bajo estas consideraciones esenciales, toda red artificial ajusta

permanentemente sus parámetros libres (pesos y umbrales) mediante

mecanismos de aprendizaje que podrían ser supervisados o no. El caso

54

particular que se aplica a este modelo híbrido es un modelo de red

neuronal multicapa que activa el cambio en las interconexiones de los

pesos sinápticos a través de una función de excitación no lineal

(logística) y un proceso de corrección de estos pesos mediante la

constante evaluación de su convergencia a un umbral dado. Este

proceso no supervisado se le conoce con el nombre de red neuronal con

un algoritmo de retropropagación del error (backpropagation neural

network) (RN-RP).

Tal como lo muestra la figura 3, la topología de una red neuronal RN-RP,

es similar a la mostrada. Una capa de nodos que capturan los

componentes de los patrones de entrada uno a la vez y del mismo un

patrón de salida capturado por el o los nodos de salida. En el

intermedio se incluye una capa de nodos que se le conoce como capa

oculta y en cada uno de sus nodos se incluye la función de excitación.

Esta función puede variar de acuerdo a las características del dominio

del problema real. Puede ser funciones asimétricas como la hiperbólica

tangencial, la lineal, y la función no simétrica conocida como logística.

El proceso de aprendizaje en este tipo de redes es básicamente en dos

fases (Werbos 1974; Rumelhart et al. 1986):

Fase hacia delante: Los parámetros libres de la red son

establecidos y el patrón de entrada i es propagado a través de la

red capa por capa. Esta fase finaliza con el cálculo del error ei

entre la salida calculada sc y el patrón de salida dado sd, ei= sd-sc.

Fase hacia atrás: El error ei es propagado a través de la red en

dirección hacia atrás. De ahí el nombre del algoritmo. Esen esta

fase que se realizan los ajustes a los parámetros libres de la red,

así que se minimice el error en un sentido estadístico, mediante el

error cuadrático medio.

El algoritmo de retropropagación se procesa en el modo lote,

regularmente. Los pesos se ajustan sobre la base de ciclo a ciclo, donde

55

cada ciclo consiste de el conjunto completo de patrones de entrada y

salida disponible para el entrenamiento. Este algoritmo es sencillo de

implementar de implementar y eficiente computacionalmente. La

arquitectura de los modelos neuronales seguirá una topología fija en

cada uno de los experimentos conducentes a medir la consistencia en el

entrenamiento y capacidad de generalización. El número de nodos en la

capa oculta estará directamente vinculado con la cantidad de

parámetros libres que incluiría la red neuronal y el nivel de convergencia

deseado. De este modo, existirán una fase inicial de entonación de la

red, ajustando nodos ocultos, función de activación, separación de los

conjuntos de datos de entrenamiento y verificación, ajuste de la tasa de

aprendizaje, selección del momento ideal para escapar lo más de las

soluciones locales, nivel del error de convergencia, selección de un

conjunto de pesos iniciales, y una segunda fase que es totalmente

experimental comprendiendo solamente la construcción y prueba de los

modelos. El criterio de parada empleado es el de la verificación cruzada

(Haykin, 1999) que consiste en: a) Dividir el conjunto de entrenamiento

en dos partes: subconjunto de estimación usado para el entrenamiento

y subconjunto de verificación para evaluar el desempeño del modelo

previamente entrenado; b) Entonación final de la red usando el conjunto

entero de entrenamiento y luego probar la generalización con patrones

nunca conocidos por el modelo.

Sección experimental

Haciendo referencia al diagrama funcional mostrado en la figura 3 y

para el caso particular de los datos de la banca comercial compuesto por

las razones financieras y la agrupación obtenida en el modelo de análisis

discriminante en una variable categórica, se dividirá en dos

subconjuntos al conjunto original, antes de iniciar la construcción de los

modelos. El conjunto original de datos de aproximadamente 8000

56

observaciones, se dividirá en uno para realizar el entrenamiento,

verificación y puesta a tono del modelo, de aproximadamente 6000

ejemplos, y el otro, formado por un subconjunto con aproximadamente

2000 ejemplos nunca usados por el modelo serán usados para verificar

el nivel de desempeño o generalización. En la construcción de la red

neuronal y como un primer intento de estimación del número de nodos

presentes en la capa oculta, se empleará el criterio heurístico que

determina el orden de acuerdo a una relación entre el nivel de error

deseado y el número limitado de parámetros libres involucrados (pesos

y umbrales).

Los modelos serán replicados una cantidad aceptable de veces con

diferentes grupos de datos de entrenamiento y manteniendo constante

las consideraciones iniciales asumidas para la topología y arquitectura

de la red neuronal. El resultado de obtener varios modelos es para que

permita medir la consistencia de los valores en las tres fases

fundamentales de la construcción de los modelos: entrenamiento,

verificación y generalización. Las medidas de evaluación que

garantizarían resultados aceptables y consistentes serán el error medio

cuadrático calculado entre el los valores deseados y calculados en la

fase de entrenamiento y verificación, el error medio cuadrático (RMSE)

obtenido durante la fase de generalización. Ambos resultados serán

medidos para cada modelo y luego de su tabulación, serán observadas

las variaciones en los resultados del RMSE obtenidos en las dos fases

para determinar el grado de consistencia conseguido en la construcción

de los modelos bajo condiciones uniformes de diseño. Una alta

consistencia conseguida entre los modelos entrenados y probados

garantiza una aceptable robustez en los procesos de pronóstico bajo las

condiciones de construcción que se siguieron al inicio.

57

Referencias.

Amir F. Atiya, Senior Member, IEEE. (2001). Bankruptcy Prediction for

Credit Risk Using Neural Networks: A Survey and New Results. IEEE

TRANSACTIONS ON NEURAL NETWORKS, VOL. 12, NO. 4, JULY 2001

Ayesterán, José R., Ramoni, Josefa y Orlandoni Giampaolo. (1996).

Crisis y Poder: El caso del Sistema Financiero. Economía Nueva Etapa.

No. 11.

Colmenares Gerardo, (2004). Reducing Archives to Build Non Linear

Models Using Neural Networks. AMSE Periodicals. Lion. France

Dong D. and McAvoy T. (1996). Nonlinear Principal Component Analysis

-Based on Principal Curves and Neural Networks. Computer Chem.

Engng., vol 20, no. 1, pp. 65-78.

Haykin Simon. (1995). Neural Networks. A comprehensive foundation.

Macmillan College Publishing Company, Inc.

Haykin Simon. (1998). Feedforward: Neural Networks: An Introduction.

Chapter 1. Manuscrito

Kramer M. (1992). Autoassociative Neural Networks. Computer Chem.

Engng., vol. 16, no. 4, pp. 313-328.

Sharma Subash. (1996). Applied Multivariate Techniques. John Wiley.

USA

Tan S. and Mavrovouniotis M. (1995). Reducing data dimensionality

through optimizing neural network inputs. AIChE Journal, vol 41, no. 6,

pp. 1471-1480.

58

MODELO DE SUPERVIVENCIA APLICADO A LA BANCA VENEZOLANA

Maria Alejandra Ayala

Resumen

Los fenómenos de crisis bancario pueden ser detectados a través de

modelos que indican una situación de quiebra, pero que no indican su

evolución en el tiempo para determinar su cambio de estado. Esta

investigación por medio de la función de supervivencia construye los

modelos para la banca comercial, uno a uno. Esta función considera

implícitamente la construcción de un conjunto de pesos que afectan

cada función individualmente y que pueden ser estimados a través de l

modelo de riesgo proporcional, en donde los coeficientes de las variables

explicativas se podría estimar a través de un modelo de regresión. Sin

embargo, un modelo de red neuronal podría intervenir a través de la

estimación de los pesos sinápticos que actúan como parámetros libres

como estimador de los parámetros envueltos en esta función que

completa el modelo de riesgo proporcional. Esta alternativa potencia la

no linealidad y le da una capacidad de estimación al modelo mucho más

amplio. Por otro lado, los valores umbrales de quiebra estimados

mediante cada una de estas funciones de supervivencia que rigen para

cada uno los bancos analizados, aportan un patrón de salida que podría

ser estudiado conjuntamente con las razones financieras, en un modelo

de pronóstico de quiebra usando redes neuronales con algoritmo de

entrenamiento de retropropagación del error. (RN-RP). El buen

desempeño de ambas técnicas mejoraría la capacidad de pronóstico

tanto del umbral de quiebra mediante las funciones de supervivencia

como su capacidad de generalización para fenómenos en los bancos no

conocidos aún por el modelo.

59

Palabras claves: función de supervivencia, probabilidad asociada,

riesgo financiero, redes neuronales, modelo de riesgo proporcional,

retropropagación del error.

Introducción

Diferentes han sido las técnicas estadísticas que las entidades bancarias

han utilizado para describir su comportamiento; más importante aún,

para intentar identificar situaciones irregulares que pueden desembocar

en crisis financieras, las cuales implican altos costos en términos de

perdida de crecimiento económico.

Aunque los modelos probit han demostrado buen desempeño en este

sentido, estos modelos, solo permiten estimar la probabilidad de que un

banco “quiebre”, pero no informan acerca del tiempo que las entidades

vulnerables podrían demorar en demostrar problemas.

El objetivo general de este trabajo es investigar cuándo es probable que

la entidad financiera cambie de estado. Dicho de otra forma, la variable

aleatoria de interés, es la duración del lapso de tiempo que tarda la

entidad en cambiar de estado. Específicamente interesa el tiempo que

tarda en ocurrir el cambio de estado y cuales son las variables que más

influyen en el cumplimiento del cambio de estado.

La técnica que permite describir el comportamiento de datos que

corresponden al tiempo o duración desde un origen bien definido hasta

la ocurrencia de un cambio de estado o punto final se denomina “análisis

de supervivencia” (Klein , J. et al., 1997 ).

Esta técnica posee varias ventajas con respecto a técnicas clásicas como

la estimación de modelos logit “clásicos”, de regresión o análisis

discriminante. Estas ultimas son de naturaleza estática, mientras que el

análisis de supervivencia capta la temporalidad y la variación de las

circunstancias a lo largo del tiempo. Esto se debe a que son análisis de

60

corte transversal de los tiempos de duración observados para

las n entidades financieras que conforman la población.

1 2, , , nt t tL

El concepto central de un modelo de supervivencia no es la probabilidad

de que un cambio de estado ocurra (por ejemplo, probabilidad que un

banco quiebre), sino más bien la probabilidad condicional de que ocurra

un cambio de estado dado que tenia en el tiempo anterior otro estado

(por ejemplo, que un banco quiebre dado que en el periodo anterior no

había quebrado). Este tipo de análisis permite además incluir en el

modelo factores explicativos constantes y variables en el tiempo. En las

técnicas clásicas, el querer introducir factores cambiantes en el tiempo

surgen problemas de colinealidad y autocorrelación, haciéndose

necesario la corrección de estos inconvenientes (Allison, P. D. , 1982 ).

El problema principal que hace necesario el uso de modelos de

supervivencia es la existencia de censura en los datos. La censura

ocurre cuando el resultado o evento de interés (cambio de estado) no

se observa para todos los individuos dentro del periodo en que se realiza

la recolección de los datos. Por lo tanto, muchas de las observaciones

representan la duración registrada hasta el momento de la medición y

no el lapso de tiempo transcurrido hasta la ocurrencia del evento. Para

el caso particular del estudio del tiempo que podría tardar una entidad

financiera en cambiar de estado, el tipo de censura que se presenta, se

conoce como por la derecha.

61

el cambio de estado o bien porque l

cambio de estado por una causa distint

Modelo

En primera instancia, debe conocerse s

quiebre dado que no ocurrió en un

creciente o decreciente en el tiempo. I

de mayor riesgo de quiebra, lo cual es

preventivas.

La función de riesgo, tiene como

diferentes periodos de tiempo. R

probabilidades condicionales,

f(t) = P(banco quiebre en el momento t d

Si definimos T una variable aleat

represente el tiempo de vida de u

siguientes valores , la fun

variable aleatoria T viene dada por

0 1 20 t t t≤ ≤ ≤ L

( ) ( ) pi if t P T t= =

La función de supervivencia viene dada

o Más adelante se especifican los criterios para p Se considera que un banco vive, mientras no

A y B marcan el inicio y la

finalización del periodo de

estudio. La censura por la

derecha ocurre cuando el cambio

de estado no se ha producido, ya

sea porque el estudio finalizó

antes de que sucediera el

a entidad financiera presento un

a a la quiebrao.

i la probabilidad de que un banco

momento anterior es constante,

dentificar cuáles son los periodos

útil en la planificación de políticas

objetivo describir el riesgo en

epresenta una secuencia de

ado que en t-1 no había quebrado)

oria discreta no negativa que

n bancop , T puede tomar los

ción de probabilidad asociada a la

(0.1) ara = 1, 2, ....i

por:

identificar bancos en quiebra se registre su quiebra.

62

;

( ) ( )j

jj t T

S t f t≥

= ∑ (0.2)

representa la probabilidad de que T sea mayor o igual a un valor t, es

decir, la probabilidad de que la supervivencia del banco sea T . En

este punto debe aclararse, que si no existiese censura , la estimación de

esta función sería simplemente contar cuantas entidades financieras

llegaron hasta el momento respecto al total.

t≥

jt

La función de riesgo puede definirse como:

( )

( | ) 0,1,2,...( )

jj j j

j

f tP T t T t j

S tλ = = ≥ = = (0.3)

Representa la probabilidad de que una entidad financiera quiebre en el

momento dado que no quebró (sobrevivió) hasta el momento . jt jt

La función de supervivencia puede escribirse como [3] ( )

1 1( )

jj

j

f tS t

λ− = − de

donde

1

0

( ) (1 )j

j ji

S t λ−

=

= −∏ (0.4)

De esta forma, una estimación no paramétrica de la función de

supervivencia sería

|

( ) (1 )j

jj t t

S t λ∧ ∧

<= ∏ − (0.5)

Si existe censura, entonces para algunas entidades financieras, se

observa que su vida llego hasta un momento determinado, pero no el

tiempo completo. Definimos como el número de entidades financieras

que quiebran en el momento j. como el número total de entidades

financieras que estuvieron en el momento j, usualmente se conoce

como el conjunto de riesgo o simplemente el número al riesgo (Hosmer

et al., 1999). Puede definirse entonces,

jd

jn

jn

63

jj

j

dn

λ∧

= (0.6)

Este estimador es conocido como el estimador no paramétrico de

Kaplan-Meier o también estimador del producto limite (Hosmer et al.,

1999). Este estimador incorpora información de todas las observaciones

disponibles, sean o no censuradas, además es una función que depende

solo de los valores de la muestra y permite describir la relación

existente entre la función de riesgo y el tiempo de supervivencia hasta

que ocurre la quiebra de la entidad financiera. La validez del estimador

de kaplan-Meier descansa en los supuestos de que las entidades

financieras que se retiran del estudio tienen un destino semejante al de

las entidades que permanecen y que el tiempo durante el cual una

entidad financiera entra al estudio no tiene efecto independiente en la

respuesta. De forma más general puede estimarse la probabilidad de

supervivencia como

(

( ) j jj

j

n dS t

n

∧ )−= (0.7)

Una ves que se tiene la función de supervivencia, es de interés

investigar si el riesgo λ de quiebra difiere sistemáticamente entre las

entidades financieras, esto significa, identificar variables explicativas de

la heterogeneidad observada en función del riesgo. Por ejemplo, si el

riesgo de quiebra disminuye en el tiempo, debemos identificar, que

características distinguen las entidades financieras con alto riesgo de

quiebra de aquellas con bajo riesgo de quiebra.

La forma de estudiar la heterogeneidad observada es introduciendo en

el modelo p variables explicativas pZ que caracterizan una entidad

financiera o su entorno, por ejemplo depósitos totales entre activos

totales, pasivos externos, tasa interbancaria del sistema bancario, etc.

Se define entonces un vector de variables 1 2 , ,,ij ij ij pij⎡ ⎤= ⎣ ⎦Z z z zL donde cada

64

elemento del vector representa la característica p para la entidad

financiera i en el momento j. La inclusión del vector de características

puede hacerse de formas que son las más comunes. La primera, con un

modelo de falla acelerada (AFTM) y la segunda con un modelo de riesgo

proporcional.

La diferencia fundamental entre estos modelos es la forma de introducir

los efectos de las variables explicativas. En un modelo AFTM, el efecto

de las variables explicativas se hace directamente sobre el tiempo de

supervivencia. En el modelo de riesgo proporcional el efecto se introduce

sobre la función de riesgo.

En este trabajo se utiliza un modelo de riesgo proporcional, una de las

ventajas de este modelo sobre un modelo AFTM es la interpretación,

esta indica el efecto de la variable explicativa sobre el riesgo de quiebra.

Por otra parte, la incorporación de variables explicativas que cambian en

el tiempoq y la posibilidad de estimar los efectos de las variables

explicativas sobre el riesgo sin necesidad de especificar una función

paramétrica para el riesgo baser (Pita Fernández, 1995).

Modelo de Riesgo proporcional propuesto por Coxs

En este modelo el efecto del vector [ se produce de manera

multiplicativa sobre la función de riesgo mediante un factor que no

depende del tiempo de duración. Sea

]i jZ

0 ( )tλ la función de riesgo base. La

función de riesgo para la i-ésima entidad financiera puede escribirse

como una proporción de la función de riesgo base, esto es (Hosmer et

al., 1999)

0( ; ) ( ) ( )t z t zλ λ ϕ= (0.8)

q Como por ejemplo múltiples razones de finalización r El riesgo base es una función que expresa el comportamiento de una entidad financiera en referencia, cuando las variables explicativas toman el valor cero (0) s Propuesto por Cox en 1972

65

donde ( )izϕ es una función de los valores del vector de variables

explicativas para la i-ésima entidad financiera. Esta función se interpreta

como el riesgo en el momento t para una entidad cuyo vector de

variables explicativas es , relativo al riesgo para una entidad

financiera cuyo vector de variables explicativas es cero.

iZ

Z

Dado que el riesgo relativo ( )izϕ no puede ser negativo, se propone una

función ( )( ) iiz e µϕ = , donde 1 1 2 2i i i p piz z zµ β β β= + + +L . El modelo de riesgo

proporcional general para la i-ésima entidad financiera es (Hosmer et

al., 1999)

( )1 1 2 2

0( | ) ( )i i p piz z zi t z e tβ β βλ + + += L λ (0.9)

La función de riesgo base es la misma para todas las entidades

financieras. Por este motivo para dos entidades financieras con variables

explicativas , el cociente de las respectivas funciones de riesgo

viene dado por (Hosmer et al., 1999):

* y Z Z

*

11

*

1

( )0

*

0

( )( | )( | )

( )

ppp p

p p p pp

p

p pp

zz z

z

e tt z et z

e t

ββ

β

λλλ

λ

==

=

⎡ ⎤⎢ ⎥ ⎡ ⎤⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎢ ⎥⎣ ⎦⎡ ⎤⎢ ⎥⎢ ⎥⎣ ⎦

∑∑

= =∑

(0.10)

Esta razón se conoce como riesgo relativo, es constante en el tiempo y

las tasas de riesgo son proporcionales. La interpretación de lo

coeficientes esta dada por la siguiente derivada:

ln ( | )

pp

t zzλ β∂

=∂

(0.11)

pβ da el cambio proporcional en la función de riesgo que resulta de un

cambio marginal en la p-ésima variable explicativa. Si difieren en

la p-ésima variable explicativa, la cual es una variable binaria, se tiene

(Hosmer et al., 1999):

* y Z Z

*

( | )( | )

pt z et z

βλλ

= (0.12)

66

En este modelo existen algunos supuestos implícitos. Se supone que no

existe influencia de las entidades financieras en la estimación del

modelo, se supone que no existe influencia de las entidades financieras

en la estimación de cada parámetro del modelo, se supone inexistencia

de heterogeneidad no observadat, se supone adecuacidad de la forma

funcional.

Si se supone que los datos son generados por un modelo de riesgo

proporcional de tiempo continuo pero observados solo en tiempos

discretos , la correspondiente función de riesgo en tiempo

discreto viene dada por (Prentice R. L. et al., 1978):

( 1,i it t− ]

( ){ }( )1 1 2 2

( ) 1 expz z z ti i p pie

j ijzβ β β λ

λ+ + + +

−= −L

(0.13)

donde ( )j ijzλ representa las tasas de riesgo en tiempo discreto para la i-

ésima entidad financiera en cada periodo de tiempo de j = 1, 2, ..., t. La

diferencia fundamental con el modelo continuo es la interpretación de la

función de riesgo. En el caso discreto es la probabilidad condicional, en

el caso continuo es la referencia a la tasa instantánea de riesgo. Cada

elemento del vector representa una característica para la i-ésima

entidad financiera en el momento j, el vector de coeficientes

Z

β u es

semejante al vector β del modelo de riesgos proporcionales presentado

anteriormente.

Debido a que no se conoce el momento exacto de quiebra de una

entidad financiera, sólo se sabe que ocurre dentro de un intervalo de

tiempo determinado, el modelo (1.13) es el empleado en el presente

trabajo.

El modelo discreto presenta ventajas en la interpretación y verificación

de los supuestos. Al permitir incorporar variables dicotómicas asociadas

t toda la heterogeneidad presente en las entidades financieras es recogida en las variables explicativas. u El vector β representa los parámetros a estimar

67

a los distintos momentos del tiempov, el modelo discreto proporciona

una estimación directa de la función de riesgo base a partir de la cual se

puede construir la función de supervivencia base. Adicionalmente, la

verificación del supuesto de proporcionalidad es sencilla. Esto es,

verificar si los efectos de las variaciones en las características de las

entidades financieras sobre el riesgo son independientes del momento

del tiempo en que se mida. En este caso el supuesto de proporcionalidad

es mas flexible que en el caso continuo, ya que los efectos solo deben

ser proporcionales en los intervalos y no en cada instante del tiempo.

Respecto al supuesto de inexistencia de heterogeneidad no observable,

es posible introducir en el modelo la posibilidad de heterogeneidad no

observable entre las diferentes entidades financieras del siguiente modo

(Meyer, B. D., 1990).

( ){ }{ }( ) log( )1 1 2 2

( ) 1 expz z z t ei i p pie

j ijz eβ β β λ

λ+ + + + +

−= − −L

(0.14)

la inclusión del nuevo termino, resume la heterogeneidad no observable,

representada por e , la cual es una variable aleatoria con distribución

Gamma con media uno y var 2σ . Observe que cuando la estimación es

no paramétrica la elección de la distribución no es importante.

La variable aleatoria e recoge factores que pueden afectar el riesgo, pero

que no son observados directamente, esto puede deberse a que no

están disponibles en los datos o bien por errores de medición en los

datos.

Si definimos un indicador de censura como 1ic = si la supervivencia de la

i-ésima entidad financiera se observa completamente y si la

supervivencia esta censurada, la función log de la verosimilitud es

(Meyer, B. D., 1990).

0ic =

v los parámetros de la función de riesgo base

68

(0.15) [1

log (1 ) (1 )N

i i i ii

c A c B=

− + −∑ ]

donde:

{ }1

11 exp( ln(var))

it var

i ijj

A I=

⎡ ⎤= + +⎢ ⎥⎣ ⎦∑ . { }

11

11 exp( ln(var)) para 1

it var

i ij ij

B I A−

=

⎡ ⎤it= + + −⎢ ⎥

⎣ ⎦∑ >

( )1 1 2 2 ( )ij i i p piI z z z tβ β β λ⎡ ⎤= + + + +⎣ ⎦L .

Si 1it = 1i iB A= −

Las Redes Neuronales y el preprocesamiento de los modelos de

supervivencia

El análisis de supervivencia permite encontrar la probabilidad

condicional de quiebra de una entidad financiera. En realidad, la quiebra

de una entidad financiera, no es un suceso que ocurre aisladamente o

de manera fortuita, antes de que una entidad financiera quiebre, dicha

entidad pasa por diferentes etapas, desde una etapa inicial, en la que no

hay problemas hasta etapas en las cuales se gesta la crisis.

Tales etapas pueden ser vistas como categorías y si selecciona un

umbral de quiebra por cada banco como patrón de salida para

conformar un conjunto de entrenamiento conjuntamente con las razones

financieras que permitan construir los modelos de las redes neuronales

usando RN-RP. Con este modelo se pretende realizar tal clasificación

para cualquier entidad financiera en las categorías preasignadas.

Los modelos serán replicados varias veces con diferentes grupos de

datos de entrenamiento manteniendo los parámetros iniciales

uniformes, la topología y la arquitectura de la red neuronal. Los errores

medio cuadráticos (RMSE) serán calculados para cada modelo

entrenado, verificado y generalizado. Luego de su tabulación, serán

observadas las variaciones en los resultados del RMSE obtenidos para

69

determinar el grado de consistencia conseguido en la construcción de los

modelos bajo condiciones uniformes de diseño. Finalmente, se evalúa la

robustez del método verificando el alto grado de consistencia con la

variación registrada en los RMSE en cada una de las fases.

1986

al 2

004

Figura 1. Entrenamiento de una RN-RP usando los valores umbrales de

quiebra de las funciones de supervivencia

70

Las figuras anterior y siguiente muestran el esquema funcional del

modelo para ambos casos: la figura 1 muestra el entrenamiento de una

red para crear un modelo de pronóstico de quiebra y la figura 2 la

estimación de los parámetros libres o pesos sinápticos para las variables

explicativas requeridas en las funciones de supervivencia.

Figura 2. Estimación de los parámetros de las variables explicativas

requeridas en las funciones de supervivencia

71

La ventaja de utilizar redes neuronales en este sentido, radica en el

hecho de las redes pueden sintetizar algoritmos a través de un proceso

de aprendizaje.

Referencias.

[1] Klein , J. And M. Moeschberguer. “Survival Analysis. Techniques for

Censored and Truncated Data”. Springer – Verlag. New York Inc. 1997.

[2] Allison, P. D. (1982). “Discrete time methods for the analysis of

event histories”. Sociological Methodology. Bass Publishers, San

Francisco.

[3] Hosmer y Lemeshow. Applied Survival Analysis. John Wiley & Sons,

INC. (1999)

[4] Pita Fernández, S. CAD ATEN PRIMARIA 1995; 2: 130-135.

[5] Prentice R. L. Y Gloecler (1978). “Regression Analysis of grouped

survival data with application to breast cancer data”. Biometrics 34 pág.

57-67

[6] Meyer, B. D. (1990). “Unemployment insurance and unemployment

spells”. Econometrika 58 (4) pág. 757 – 782.

72

modelos estadsticos multivariantes, de pronsticos y de … · modelos estadÍsticos multivariantes,...

Documents