redes neuronales aplicadas al estudio de la corrupción

Red Neuronal Artificial (MLP) Aplicada al Estudio de la

Corrupcin

Un anlisis comparativo con otros modelos economtricos a la luz de la

teora

Red Neuronal Artificial (MLP) Aplicada al Estudio de la

Corrupcin

Un anlisis comparativo con otros modelos economtricos a la luz de la

teora

Cristian Picn Viana

A mi madre Margarita por sus sacrificios.

A mi hijo Damin por ser la principal Razn de todos

mis esfuerzos.

CONTENIDO

1 INTRODUCCIN .................................................................................................... 9

2 ACERCAMIENTO TERICO Y ANTECEDENTES ...................................... 13

2.1 Red Neuronal Perceptrn Multicapa (MLP) ...................................................... 13

2.2 Corrupcin y sus Determinantes ........................................................................ 18

2.2.1 La Corrupcin .............................................................................................. 18

2.2.2 Factores Determinantes ................................................................................ 19

2.3 Antecedentes sobre corrupcin .......................................................................... 21

3 LAS VARIABLES .................................................................................................. 24

4 METODOLOGA .................................................................................................. 31

5 RESULTADOS ....................................................................................................... 34

5.1 Resultados obtenidos por la Red Neuronal Artificial Perceptrn

Multicapa .................................................................................................................. 34

5.2 Anlisis comparativos con modelos convencionales de respuesta categrica

ordinal. ...................................................................................................................... 45

5.2.1 Poder de Clasificacin ................................................................................. 45

5.2.2 Significancia ................................................................................................. 46

5.2.3 Importancia relativa y signo de la relacin funcional .................................. 48

5.3 La teora .............................................................................................................. 50

6 CONCLUSIONES .................................................................................................. 52

7 ANEXOS ................................................................................................................. 54

REFERENCIAS .................................................................................................. 59

9

1

INTRODUCCIN

Las Redes Neuronales Artificiales, (RNA), se pueden definir como un

conjunto de elementos interconectados de procesamiento de informacin,

que son capaces de aprender con los datos que se les suministre.

Una RNA es bsicamente un modelo simplificado del modo en que los

sistemas nerviosos procesan informacin. Funciona sincronizando un

nmero de unidades simples de procesamiento interconectadas que emulan

a las neuronas (llamadas tambin nodos), las cuales estn organizadas en

niveles denominados capas. Cada nodo est conectado con otros mediante

enlaces de comunicacin, cada uno de los cuales tiene asociado un peso o

ponderacin matemtica; en los pesos se encuentra el conocimiento que

tiene la RNA acerca de un determinado problema.

Estos modelos pueden aplicarse a gran nmero de problemas que pueden ir

desde problemas complejos y reales a modelos tericos sofisticados por lo

que algunas de las redes neuronales son herramientas tiles en muchas

aplicaciones de prediccin y en minera de datos debido a su potencia,

flexibilidad y facilidad de uso. Su ventaja reside en su capacidad de aprender

funciones complejas o no lineales entre variables sin necesidad de imponer

presupuestos o restricciones a los datos.

Por lo anterior, las RNA estn en capacidad de resolver problemas

estadsticos sin plantear supuestos iniciales rigurosos y encontrar las

funciones que determinan las variables de inters basndose nicamente en

los datos, por lo que es interesante analizar sus resultados a la luz de

10

trabajos anteriores realizados con herramientas convencionales y elaborar

nuevas aplicaciones.

Desde esta perspectiva, las RNA han sido utilizadas con resultados

satisfactorios en diferentes reas del conocimiento. Sin embargo, el uso de

esta tecnologa computacional es relativamente reciente en aplicaciones

econmicas (Zhang, Patuwo, & Hu, 1998) e inexistente en aplicaciones

especficas al estudio de la corrupcin, donde la mayora de investigaciones

utilizan herramientas estadsticas y economtricas que se limitan a estudios

correlacinales o determinsticos (Regresin) planteando hiptesis sobre la

exogeneidad y/o linealidad de algunas variables y el comportamiento

paramtrico de estas.

Por tanto, este estudio plantea dos objetivos, en primer lugar aplicar

una RNA Perceptrn Multicapa al estudio de la corrupcin internacional

y contrastar los resultados con los obtenidos por otros modelos con

aplicaciones similares pero con caractersticas paramtricas

convencionales y en segundo lugar, comparar las estimaciones

obtenidas con los resultados tericos esperados segn estudios

anteriores sobre los determinantes de la corrupcin internacional.

Para cumplir con estos objetivos se propuso la utilizacin de un modelo

predictivo de clasificacin basado en redes neuronales denominado

Perceptrn Multicapa (MLP por sus siglas en ingles). Se gener un modelo

predictivo que pronostica el grupo al que pertenece cada pas segn su nivel

de corrupcin dados por el CPI de Transparencia Internacional a partir de

determinadas caractersticas culturales, histricas, polticas, institucionales y

socio-econmicas que delimitan su perfil.

Especficamente, los pases estudiados se clasificaron por cuartiles de

acuerdo con sus niveles de corrupcin segn su posicin en el CPI publicado

por Transparencia Internacional y en funcin de los valores de los campos de

11

entrada se determinaron las variables, que al interactuar, permiten predecir

en que rango se encontrar un pas dadas sus caractersticas. Por lo tanto,

se estimaron las caractersticas o sntomas que han presentado durante la

ltima dcada los pases catalogados como ms o menos corruptos y se

compararon los resultados con otros modelos economtricos de desempeo

similar (Logit Ordinal y Probit Ordinal) y los planteamientos tericos sobre la

corrupcin internacional.

Es as como, basados en el estudio de un conjunto de 149 pases con datos

de corte transversal actualizados al ao 2010 para la variable dependiente y

promedios del perodo 2000-2010 para las independientes se encontr que:

1) El Perceptrn Multicapa (MLP) obtuvo excelentes resultados en cuanto

al poder de clasificacin frente a los modelos convencionales Logit

Ordinal y Probit Ordinal, lo que confirma su utilidad como herramienta

alternativa en este tipo de aplicaciones.

2) Todos los modelos aplicados mostraron resultados similares en cuanto

a la relevancia de las variables independientes para explicar el nivel de

corrupcin de los pases tratados, confirmando los principales

resultados de investigaciones anteriores:

a) Se corrobor que entre menor sea el nivel de ingreso per cpita de

un pas, ms posibilidades tiene de ser clasificado como ms

corrupto.

b) Se encontr evidencia de que entre menor sean las libertades

polticas e individuales y el nivel de apertura econmica, existen

ms posibilidades de que un pas sea clasificado como ms

corrupto.

c) As mismo, los pases con mayor proporcin de poblacin

protestante y aquellos que han sido colonia britnica o nunca han

sido colonizados en alguna etapa relevante de su historia por algn

12

pas, tienen mayor probabilidad de ser asignado como menos

corrupto.

d) Tambin, pases que requieren mayor cantidad de procesos para

hacer cumplir los contratos de acuerdo con sus sistemas legales son

clasificados como ms corruptos; no obstante, el nmero de

procesos requeridos para asegurar los derechos de propiedad sobre

las empresas no mostr resultados estadsticos concluyentes.

e) Solo dos variables, el nivel de gasto pblico y tener como origen

colonial a Espaa, no resultaron significativas en ninguno de los

modelos planteados.

Por otro lado, el documento est constituido de la siguiente manera: Un

segundo componente que muestra una breve introduccin al funcionamiento

de una red neuronal MLP; as como algunos planteamientos tericos sobre

corrupcin y un conjunto de investigaciones que se han realizado sobre la

interrelacin entre la corrupcin y otras variables. Una tercera y cuarta parte

en la que se explican de manera concisa las variables utilizadas y se expone

la metodologa desarrollada, un quinto componente en el que se muestran

los resultados y por ltimo se plantean las conclusiones y propuestas

pertinentes.

13

2

ACERCAMIENTO TERICO Y ANTECEDENTES

2.1 Red Neuronal Perceptrn Multicapa (MLP)

Una de las RNA ms ampliamente utilizada en anlisis de clasificacin es el

Perceptrn Multicapa (MLP) por sus siglas en ingls, el cual es utilizado para

este trabajo. Se ha convertido en los ltimos aos en una herramientas de

propsito general, flexible y eficiente en el manejo de funciones no lineales,

mostrando excelentes resultados respecto a los modelos estadsticos

clsicos en numerosos campos de aplicacin, entre los cuales, se encuentra

la investigacin econmica donde es ms probable que en los datos y series

aparezcan relaciones no lineales (Granger & Tersvirta, 1993).

Lo anterior se debe principalmente a que las Redes Neuronales MLP poseen

una serie de caractersticas deseables, tales como la habilidad para procesar

datos con ruido o incompletos, la alta tolerancia a fallos que permite a la red

operar satisfactoriamente con neuronas o conexiones daadas y la

capacidad de funcionar como modelos no paramtricos y robustos a

supuestos. Asimismo su amplia aplicabilidad se debe a que es capaz de

actuar como un estimador universal de funciones (Funahashi, 1989); ms

concretamente, una red MPL con, al menos, una capa oculta con suficientes

unidades no lineales puede aprender cualquier tipo de funcin o relacin

continua entre un grupo de variables de entrada y salida.

Un MLP est compuesto por una capa de neuronas (conjunto de neuronas

con la misma funcin) de entrada, una capa de salida y una o ms capas

ocultas (organizadas entre la de entrada y la de salida); aunque se ha

14

Grfico 1

Arquitectura de una red MLP

demostrado que para la mayora de problemas es suficiente con una sola

capa oculta (Funahashi, 1989).

En este tipo de modelos, las conexiones entre nodos siempre van desde las

neuronas de una determinada capa hacia las neuronas de la siguiente capa;

no hay conexiones laterales, ni conexiones hacia atrs. Por tanto, la

informacin siempre se transmite desde la capa de entrada hacia la capa de

salida. En el grfico 1 se puede observar la arquitectura de un MLP.

Para su correcto funcionamiento, (Rumelhart, Hinton, & Williams, 1986)

formalizaron un mtodo para que una red de este tipo aprendiera la

asociacin que existe entre un conjunto de patrones de entrada y sus salidas

correspondientes. Este mtodo, se conoce como backpropagation error

(propagacin del error hacia atrs).

Fuente: Elaboracin del autor

15

Segn (Palmer, Montao, & Jimnez, 2001) en el algoritmo backpropagation

podemos considerar una etapa donde se presenta ante la red un patrn de

entrada y ste se transmite a travs de las sucesivas capas de neuronas

hasta obtener una salida y, por otro lado, una etapa de entrenamiento o

aprendizaje donde se modifican los pesos de la red de manera que coincida

la salida deseada con la salida obtenida por la red ante la presentacin de un

determinado patrn de entrada.

Complementando, generalmente se considera Wij como el peso de conexin

entre la neurona de entrada i y la neurona oculta j, y Vjk como el peso de

conexin entre la neurona oculta j y la neurona de salida k, estos pesos se

observan como flechas que unen a los nodos en el grfico 1.

El patrn de entrada p est expresado como un vector pX: xp1,..., xpi,..., xpN,

ste se transmite a travs de los pesos Wji desde la capa de entrada hacia la

capa oculta, la entrada neta que recibe una neurona oculta j, net pj, es:

donde es el umbral de la neurona que se supone como un peso asociado a

una neurona ficticia con valor de salida igual a 1.

Las neuronas de esta capa (o capas) intermedia transforman las seales

recibidas mediante la aplicacin de una funcin de activacin (De naturaleza

Sigmoidal generalmente) obtenindose un valor de salida:

( )

donde bpj es el valor de salida de la neurona j.

Este valor, se transfiere a travs de los pesos Vkj hacia la capa de salida:

16

En la capa de salida se aplica la misma operacin que en la capa anterior,

las neuronas de esta ltima capa proporcionan la salida, ypk, de la red:

( )

Luego, empieza una etapa de aprendizaje o entrenamiento de la RNA, el

objetivo de este es minimizar el error entre la salida obtenida por la red y la

salida deseada. Se dice que el aprendizaje en las redes mediante el

algoritmo backpropagation y similares es de tipo supervisado, debido a que

el usuario (o supervisor) determina la salida deseada ante la presentacin de

un determinado patrn de entrada (Palmer, Montao, & Jimnez, 2001).

La funcin de error que se intenta minimizar para cada patrn p, Ep, est

definida por:

( )

donde dpk es la salida esperada para la neurona de salida k ante la

presentacin del patrn p. A partir de la anterior expresin se obtiene una

ecuacin general de error mediante:

Como Ep es funcin de todos los pesos de la red, el gradiente de Ep es un

vector igual a la derivada parcial de Ep respecto a cada uno de los pesos. El

gradiente toma la direccin que determina el incremento ms rpido en el

error, mientras que la direccin opuesta determina el decremento ms rpido

17

en el error. Por tanto, el error puede reducirse ajustando cada peso en la

direccin1:

Para la alteracin de los pesos de la red, se actualizan despus de haber

suministrado la totalidad de los patrones de entrenamiento, este proceso se

designa aprendizaje por lotes o modo batch y es el modo habitual de

proceder. Adems, se han desarrollado diferentes variantes del algoritmo

original backpropagation para realizar la etapa de aprendizaje, las cuales

tienen por objeto acelerar el proceso de aprendizaje.

En resumen, un MPL recibe informacin a travs de un grupo de nodos que

componen una capa de entrada, sta transmite la informacin a otra u otras

capas intermedias que aplican una funcin matemtica que genera una

salida determinada, la conexin entre nodos o neuronas se realiza a travs

de unos pesos o ponderaciones que se modifican hasta que la salida creada

gracias a la funcin de activacin coincida con la salida deseada ante la

presentacin de un determinado patrn de entrada. Este proceso iterativo de

ajuste de los pesos representa el proceso de aprendizaje de la red; al final

del proceso de aprendizaje, el MPL es capaz de reconocer nuevos datos y

asignarlos a los diferentes grupos de clasificacin de acuerdo a un conjunto

de caractersticas detectadas y que distinguen a los datos clasificados.

1 Un anlisis ms concienzudo de este algoritmo puede estudiarse en (Rumelhart, Hinton, & Williams, 1986);

un estudio generalizado sobre las RNA y sus aplicaciones en ciencias sociales se puede encontrar en (Palmer,

Montao, & Jimnez, 2001) y una visin ms prctica para el uso de software en (Pres, 2008)

18

2.2 Corrupcin y sus Determinantes

2.2.1 La Corrupcin

La creciente importancia que ha tomado en las ltimas dcadas el estudio de

la corrupcin y los intentos de luchar contra las diversas formas de la misma

obedecen en primera instancia al consenso que existe sobre el impacto

negativo de la corrupcin sobre el Desarrollo Internacional y el

convencimiento de que este requiere, por encima de todo, el buen gobierno2.

Lo anterior debido a que las polticas, incentivos bien intencionados, y los

esfuerzos de ayuda parecen no lograr los objetivos deseados a menos que

se produzcan en un ambiente que estimule la auto sostenibilidad de los

procesos, el crecimiento y el desarrollo y existe evidencia clara de que la

corrupcin es enemiga de dicho entorno.

Existe tambin consenso sobre el hecho de que las polticas resultan

inadecuadas, no siempre por falta de conocimiento acerca de lo que dicha

poltica debi ser sino el resultado de acciones de agentes que las

distorsionan para sus propios intereses econmicos (Grossman & Helpman,

1994).

Por lo tanto, se estn haciendo esfuerzos para comprender cmo la

corrupcin afecta directamente al crecimiento econmico al cambiar la

asignacin de fondos pblicos, e indirectamente, al cambiar los incentivos,

los precios y las oportunidades; debido a que la corrupcin parece afectar el

nivel de inversin, desincentiva el espritu emprendedor y distorsiona la

realidad institucional3 de un pas.

Sin embargo, el estudio de la corrupcin se aleja mucho de ser fcil y no

existen criterios claros sobre las metodologas y procesos a seguir. Una de 2 Un marco para estudiar la relacin entre la gobernabilidad y el desarrollo puede encontrarse en (Boeninger,

1991). Vase (Bardhan, 1997) y (Rose-Ackerman, 1998) para las discusiones de los vnculos entre la

corrupcin y el desarrollo. 3 Los planteamientos clave sobre la importancia de las instituciones sobre el desarrollo y crecimiento

econmico pueden encontrarse en (Rodrik & Dani, 2002) y (Rodrik, Subramanian, & Trebbi, 2002).

19

estas dificultades en el estudio de la corrupcin radica en la definicin de la

misma, debido a que cmo la definamos determina la manera en la que se

abordar el problema, como se medir y modelar4. Por tanto, no existe una

definicin concreta de corrupcin, pero la ms generalizada y la utilizada en

este trabajo es la planteada por (Klitgaard, 1988) que hace hincapi en las

actividades de los funcionarios pblicos que no obedecen a sus deberes

debido a la bsqueda de beneficios personales. Vase tambin (Rose-

Ackerman, 1999) y una aproximacin detallada al fenmeno de la corrupcin

en (Svensson, 2005).

Por otro lado, el estudio de la corrupcin se puede enfocar de dos formas

paralelas. En primer lugar se puede tratar de entender las relaciones

conceptuales y tericas entre la corrupcin y el funcionamiento de las

instituciones econmicas y polticas de una sociedad y en segundo lugar se

puede examinar la validez emprica de los vnculos y relaciones observadas.

Este trabajo se centra en la segunda va y pretende proponer una alternativa

metodolgica para esto.

2.2.2 Factores Determinantes

Siguiendo los planteamientos de (Dreher, Kotsogiannis, & McCorriston, 2007)

las variables consideradas como determinantes de la corrupcin pueden

clasificarse en cuatro grupos con el fin de facilitar su exposicin:

a) Factores Polticos e Institucionales

Los factores polticos se refieren a las caractersticas democrticas de los

pases y a la efectividad de sus sistemas judiciales. Algunos estudios

plantean que los niveles de corrupcin de los diferentes pases estn

positivamente correlacionados con las deficiencias en estos aspectos. Esto

se justifica por las dificultades que presentaran en solucionar las disputas 4 Para una discusin sobre la importancia de la definicin de corrupcin, (Lancaster & Montinola, 1997) y

(Philp, 1997).

20

sobre derechos de propiedad, cumplimiento de contratos, as como los

conflictos al incentivar procesos transparentes y competitivos.

b) Factores Histricos

Los planteamientos tericos afirman que los orgenes histricos de los pases

definen en gran medida las caractersticas institucionales, polticas y

culturales de los pueblos. El mayor nfasis en el estudio de este tema se ha

puesto en el anlisis de la influencia del origen colonial de las naciones como

indicador de sus componentes histricos. Es as como algunos estudios

como el de (La Porta, 1999) y (Treisman, 2000) muestran que los pases

que han sido colonia britnica estn asociados con menores niveles de

corrupcin debido principalmente a la influencia de este hecho sobre la

tradicin democrtica de sus instituciones y las caractersticas de los

sistemas judiciales de estos pases.

c) Factores Culturales

Este grupo de variables se refiere a las caractersticas sociales y culturales

de los pases y su impacto sobre los niveles percibidos de corrupcin. La

mayora de los estudios se han enfocado en la influencia de las creencias

religiosas como fundamento de las actitudes sociales y los valores familiares

que pueden o no incrementar la indiferencia e incluso aceptacin de los

comportamientos corruptos. La mayora de las investigaciones relevantes

plantean que religiones con un carcter ms rgido desde su estructura y de

carcter ms social tienden a mantener el status quo y ser ms laxas frente a

comportamientos corruptos. Por lo anterior, los pases con mayor proporcin

de practicantes protestantes deberan presentar menores niveles de

corrupcin percibida.

21

d) Factores Econmicos

Los estudios sobre los factores econmicos que determinan los niveles de

corrupcin se han enfocado tpicamente en los niveles de integracin con los

mercados internacionales, el desarrollo econmico de los pases y el tamao

del estado y su influencia sobre la economa. La evidencia muestra que entre

menor sea el nivel de ingreso per cpita o desarrollo econmico de un pas,

menor sea su nivel de apertura econmica y mayor el tamao de su estado

existen ms posibilidades de que un pas presente mayores niveles de

corrupcin.

2.3 Antecedentes sobre corrupcin

Se han realizado gran cantidad de estudios que plantean relaciones

determinsticas entre diferentes variables y los niveles de corrupcin

internacional. Dentro de las investigaciones ms reconocidas, (Tanzi, 1998)

discute aspectos relacionados con las causas, consecuencias y el alcance de

la corrupcin, y las posibles acciones correctivas haciendo hincapi en los

costos de la corrupcin en trminos de crecimiento econmico y en el hecho

de que la lucha contra la corrupcin no puede ser independiente de la

reforma del Estado.

En un estudio ms tcnico (Treisman, 2000) analiza varios ndices de

corrupcin percibida encontrando argumentos que indican que los pases con

tradiciones protestantes, los que han sido colonias britnicas, las economas

con mayores niveles de desarrollo y, aunque no tan concluyente, con

mayores importaciones fueron menos "corruptos".

(Sandholtz & Koetzle, 2000) Estudian la variacin en el nivel percibido de

corrupcin definido como el abuso del cargo pblico para beneficio privado

en una muestra de cincuenta pases. Propone un conjunto de hiptesis que

explican la variacin en los niveles de corrupcin en trminos de la estructura

poltico-econmica nacional, las normas democrticas, la integracin en la

22

economa internacional, y afiliacin religiosa protestante. Encuentran que los

niveles de corrupcin son ms altos cuanto menor sea el nivel de ingreso

promedio, cuanto mayor sea el grado de control estatal de la economa, ms

dbiles sean las normas y las instituciones democrticas y menor sea el

grado de integracin en la economa mundial.

Interesados en estudiar y evaluar la literatura emprica sobre las fuentes de

corrupcin y hacer uso de la mejora en la disponibilidad de datos, (Pellegrini

& Gerlagh, 2007) utilizaron un modelo economtrico con datos de diferentes

pases para poner a prueba hiptesis bien establecidas y ms recientes

sobre corrupcin en forma conjunta. Encontraron nuevamente que haber sido

en el pasado una colonia britnica es un buen predictor de la corrupcin y

apoyan las teoras culturales sobre las causas de la corrupcin sugiriendo

que una exposicin de mediano o largo plazo a la democracia sin

interrupcin se asocia con niveles de corrupcin ms bajos, mientras que la

inestabilidad poltica hace que se incremente la corrupcin.

Centrado en el debate sobre la pertinencia de los ndices basados en la

percepcin como indicadores de la corrupcin real de un pas, (Dreher,

Kotsogiannis, & McCorriston, 2007) disean un modelo de ecuaciones

estructurales que trata a la corrupcin como una variable latente que est

directamente relacionada con sus causas y efectos, para obtener un ndice

de corrupcin. En el proceso, realiza un anlisis de las diferentes causas

econmicas e institucionales de la corrupcin encontrando resultados

similares a los anteriores.

(Billger & Goel, 2009) Examinan los determinantes de la corrupcin

analizando la distribucin condicional de este fenmeno entre las naciones.

Se plantean si existen diferentes causas de la corrupcin en los pases

altamente corruptos en comparacin con los pases menos corruptos. Para

cumplir sus objetivos utilizaron una muestra de casi un centenar de pases y

estimaron un modelo de regresin por cuantiles, enfoque muy parecido al

23

planteado en este trabajo. Los resultados apoyan algunas de las

conclusiones en la literatura y proporcionan nuevas conclusiones.

Utilizando datos de corte transversal de casi 100 pases (Goel & Nelson,

2010) examinan el papel de los factores histricos, geogrficos y las

influencias del gobierno contra la corrupcin. Importantes innovaciones

incluyen el examen de un amplio conjunto de determinantes histricos,

geogrficos y polticos de la corrupcin y el examen de algunos de los

determinantes que antes no se consideraban en un mayor nivel de detalle.

Concluyen que el gobierno no impacta de manera importante sobre la

corrupcin, que la inercia histrica de las instituciones que inducen a la

corrupcin es persistente y algunos factores geogrficos pueden mitigar la

corrupcin.

(Picn, 2011) Aplica un modelo predictivo de clasificacin basado en una red

neuronal Perceptrn Multicapa, con el fin de mostrar si el nivel de apertura

econmica es una de las caractersticas o sntomas que presenta un pas

catalogado como ms o menos corrupto. De las variables utilizadas, los

niveles de desarrollo humano (IDH) y los niveles de apertura econmica

fueron las caractersticas comunes que comparten los pases con niveles

semejantes de corrupcin, permitiendo clasificarlos correctamente.

Dado que muchos de los resultados de investigaciones previas no son

concluyentes, a la complejidad del fenmeno y a lo relativamente reciente de

las investigaciones, podemos afirmar como lo hace (Lambsdorff, 2007, pg.

14) que nuestro conocimiento sobre las tendencias en los niveles de

corrupcin es todava limitado y, sin duda, los resultados pueden requerir una

mayor validacin.

24

3

LAS VARIABLES

Para medir la corrupcin de los pases estudiados se escogi el ndice de

Percepcin de Corrupcin (CPI) publicado anualmente por Transparencia

Internacional. Esta organizacin define la corrupcin, al igual que esta

investigacin, como el abuso del poder delegado o encomendado, con el fin

de obtener beneficios personales. El ndice de Percepcin de Corrupcin

(CPI) clasifica los pases segn la percepcin de la corrupcin en el sector

pblico y permite compararlos.

Se justifica la inclusin de un solo ndice de corrupcin debido a la gran

correlacin que presenta el CPI con respecto a otros indicadores (Alesina &

Weder, 2002) y al hecho de que su evaluacin sobre el alcance de la

corrupcin en los pases est a cargo de grupos de expertos, tanto

residentes como no residentes, y lderes empresariales que en muchas

ocasiones representan entidades que generan indicadores de corrupcin.

Por ejemplo, segn Transparencia Internacional, en el CPI 2010, algunas de

las fuentes de informacin que brindaron datos basados en anlisis de

expertos fueron Banco Africano de Desarrollo, Banco Asitico de Desarrollo,

Bertelsmann Foundation, Economist Intelligence Unit, Freedom House,

Global Insight y el Banco Mundial. El anexo 1 muestra los altos niveles de

correlacin entre el CPI y el ndice Control of Corruption publicado por el

Banco Mundial5.

5El ndice Control Corruption refleja una compilacin estadstica de respuestas a encuestas sobre la calidad de la gestin pblica realizadas a un gran nmero de empresas, ciudadanos y expertos segn los informes de

un conjunto de institutos de estudio, organizaciones no gubernamentales y organizaciones internacionales.

25

Especficamente para este estudio, los pases analizados se clasificaron por

cuartiles de acuerdo con sus niveles de corrupcin segn su posicin

(Ranking) en el CPI publicado por Transparencia Internacional, creando una

variable categrica denominada Corrcateg4 compuesta por cuatro clases

donde la clase 4 corresponde al cuartil de los pases con menor percepcin

de corrupcin y la clase 1 al cuartil con mayor nivel de percepcin de

corrupcin para el ao 2010. Hay que aclarar que como los cuartiles fueron

creados teniendo en cuenta el ranking y no los puntajes puede haber

cuartiles con diferente nmero de pases.

Se opt por clasificar los pases estudiados en cuartiles segn su ranking por

tres motivos principales, en primer lugar debido a que en modelos de

regresin convencionales no tiene mucho sentido terico las pendientes o la

magnitud de los parmetros estimados debido a que el CPI es un ndice de

percepcin, por tanto, se considera aqu que al agrupar los pases por

niveles de corrupcin pueden aislarse mejor los problemas tericos debido

al origen de la medicin y las variables que afecten solo a algunos pases de

acuerdo a sus caractersticas; en segundo lugar, en este trabajo se propone

la estimacin de un modelo de clasificacin para lo cual se requiere que la

variable dependiente sea categrica y as poder determinar el perfil de los

pases que comparten niveles semejantes de corrupcin, y en tercer lugar el

manejar datos en cuartiles facilita un conjunto de anlisis descriptivos como

la identificacin de datos atpicos, sesgo y dispersin para entender mejor la

informacin.

Complementando lo anterior y acorde a la categorizacin de las variables

determinantes de la corrupcin planteadas anteriormente, las variables

clasificadoras utilizadas en este trabajo son6:

6 La tabla 1 muestra un resumen de las variables propuestas.

26

Factores Polticos e Institucionales:

En este trabajo se propone como indicador del nivel de democracia de los

pases estudiados el indicador de libertades polticas del ndice The

Freedom in the World elaborado por la organizacin Freedom House. Este

provee una evaluacin anual de las caractersticas, progresos y retrocesos

de las libertades polticas de 194 pases basndose en una evaluacin de los

procesos electorales de cada pas, su pluralismo y libertad de participacin

en los procesos polticos y la efectividad del gobierno.

Cada pas es asignado con un puntaje numrico de 1 a 7, donde 1

representa a los ms libres y 7 a los menos libres. En esta investigacin ser

denotado como indpolfree y calculado como el promedio 2000-2010 del

puntaje estipulado para cada pas.

Dos factores institucionales propuestos son en primer lugar la variable

procrigts definida como el nmero de procedimientos necesarios para que

los empresarios aseguren sus derechos de propiedad y proccontract

definida como el nmero de procedimientos para hacer cumplir un contrato,

entendida como la cantidad de acciones independientes, impuestas por la ley

o los tribunales, entre las partes de un contrato o entre estas y el juez o

tribunal oficial. Estas variables son suministradas por el Banco Mundial y

pretenden aproximarse a la eficiencia del sistema judicial de los pases

estudiados y cuantificar de cierta manera los posibles incentivos sobre

sobornos y otras actividades consideradas corruptas.

Factores Histricos:

Como factores histricos se utilizarn tres variables dictomas para verificar

si son estadsticamente significativas para clasificar a los pases segn su

nivel de corrupcin:

ESP: toma valor 1 si el pas fue una colonia espaola; 0 si no lo fue.

27

ING: toma valor 1 si el pas fue una colonia britnica; 0 si no lo fue.

ning: toma valor 1 si el pas nunca ha sido colonizado; 0 si lo ha sido en

algn perodo relevante de su historia.

Estas variables fueron generadas basndose en la informacin disponible en

la Agencia Central de Inteligencia CIA (The World Factbook).

Factores Culturales:

Como variable cultural se tomar la variable prot que cuantifica la

proporcin de personas de religin cristiana protestante en cada pas segn

la informacin disponible.

Esta variable fue generada basndose en la informacin disponible en la

Agencia Central de Inteligencia CIA (The World Factbook) y en el informe

Religious Freedom Report suministrado por el Departamento de Estado de

Estados Unidos.

Factores Econmicos:

En este trabajo se entiende por Apertura Econmica un conjunto de polticas

de carcter econmico y legal, que incentivan el ejercicio del comercio y las

finanzas internacionales, la liberacin del mercado de capitales y el

intercambio de tecnologas sin restricciones por pate del Estado. Para

cuantificarla, se genera la variable gtradefinfree, calculada a partir de la

media geomtrica7 de los ndices de Libertad Comercial y Libertad Financiera

publicados por The Heritage Foundation y The Wall Street Journal. Este

consiste en un ndice que toma valores de 0 a 100, siendo los niveles de

mayor apertura los ms cercanos a 100; calculndose su media entre los

aos 2000-2010 para los 149 pases analizados.

7 Se puede demostrar fcilmente que la media geomtrica es ms eficiente que la media aritmtica para

promediar tasas o porcentajes. Por tanto fue utilizada para hallar los promedios 2000-2010 para las

covariantes que tengan estas caractersticas.

28

Ms especficamente, la libertad de comercio es una medida compuesta de

la ausencia de barreras arancelarias y no arancelarias que afectan las

importaciones y exportaciones de bienes y servicios. Los puntajes del ndice

de libertad financiera constan de aspectos como el alcance de la regulacin

gubernamental de los servicios financieros, el grado de intervencin estatal

en las entidades financieras, el grado de desarrollo de los mercados

financieros internacionales y de capitales y la apertura a la competencia

extranjera. Los dos forman parte de un ndice ms general de Libertad

Econmica que tiene en cuenta otros aspectos econmicos e institucionales.

Dadas las caractersticas de los modelos planteados, es necesario controlar

la influencia de otras variables socio-econmicas, para esto se propuso en

primera instancia el promedio 2000-2010 del ndice de Desarrollo Humano

(IDH) para los pases estudiados como proxy de su nivel de pobreza y

calidad de vida. Este ndice es elaborado por el Programa de las Naciones

Unidas para el Desarrollo (PNUD) y contiene los indicadores de esperanza

de vida al nacer, tasa de alfabetizacin de adultos y la tasa bruta combinada

de matriculacin en educacin primaria, secundaria y superior, as como los

aos de duracin de la educacin obligatoria. Tambin incluye el ingreso per

cpita PPA en dlares internacionales. El IDH toma valores entre 0 y 100

siendo el 100 el mayor puntaje posible en desarrollo humano.

Sin embargo, como se puede observar en el anexo 2, debido a la alta

correlacin que existe entre los componentes del IDH y a la menor

correlacin que existe entre el ingreso per cpita y las dems variables en

este estudio en comparacin con el IDH (anexo 3), se opt por utilizar la

variable gnip correspondiente al ingreso promedio per cpita entre los

aos 2000-2010 como indicador del nivel de vida de los habitantes de cada

pas estudiado y no incluir en el modelo todos los componentes del IDH por

separado debido a problemas de multicolinealidad.

29

Otra variable incluida debido a su importancia terica es el tamao del

Estado8. Puede esperarse que el tamao del Estado con respecto al total de

la economa pueda influenciar sobre los niveles de corrupcin observada.

Para este trabajo la variable se denomina govspending1 y corresponde al

promedio 2000-2010 del ndice de Gastos del Gobierno publicado por The

Heritage Foundation y The Wall Street Journal.

Este ndice se basa en el nivel de gasto pblico incluidos el consumo del

Gobierno y transferencias como porcentaje del PIB. No trata de identificar un

nivel ptimo de gasto pblico ya que el ideal puede variar de pas a pas,

dependiendo de factores culturales, geogrficos y de desarrollo. Segn la

ficha metodolgica, la escala de puntuacin de este ndice no es lineal, lo

que significa que los pases que se acercan a cero en su participacin de

gasto pblico con respecto al PIB son ligeramente penalizados, mientras que

los niveles de gasto pblico que exceden el 30 por ciento del PIB reciben

resultados mucho peores en forma cuadrtica en este ndice, de modo que

slo los gobiernos realmente grandes reciben puntuaciones muy bajas.

8 Puede encontrarse una lista de estudios realizados sobre la interaccin entre corrupcin y tamao del estado

en (Lambsdorff, 2007, pg. 4).

30

Tabla 1

VARIABLES PROPUESTAS

VARIABLE DESCRIPCIN FUENTE

Corrcateg4

Variable categrica correspondiente a

cuartiles de acuerdo con los niveles de

corrupcin segn la posicin

(Ranking) de cada pas en el CPI

publicado por Transparencia

Internacional 2010.

Calculo del autor a partir del

CPI publicado por

Transparencia Internacional

indpolfree

Promedio 2000-2010 del indicador de

libertades polticas del ndice The Freedom in the World donde cada pas es asignado con un puntaje

numrico de 1 a 7, donde 1 representa

a los ms libres y 7 a los menos libres

Publicado por Freedom House

procrigts

Nmero de procedimientos necesarios

para que los empresarios aseguren sus

derechos de propiedad

Bases de datos del Banco

Mundial

proccontract

Nmero de procedimientos para hacer

cumplir un contrato, entendida como la

cantidad de acciones independientes,

impuestas por la ley o los tribunales,

entre las partes de un contrato o entre

estas y el juez o tribunal oficial

Bases de datos del Banco

Mundial

ESP

Variable dictoma; toma valor 1 si el

pas fue una colonia espaola; 0 si no

lo fue.

Agencia Central de

Inteligencia CIA (The World

Factbook).

ING


pas fue una colonia britnica; 0 si no

lo fue.

Agencia Central de


Factbook).

ning


pas nunca ha sido colonizado; 0 si ha

sido.

Agencia Central de


Factbook).

prot

Proporcin de personas de religin

cristiana protestante en cada pas segn

la informacin disponible.

Agencia Central de


Factbook) y en el informe

Religious Freedom Report

suministrado por el

departamento de Estado de

Estados Unidos.

gtradefinfree

Media 2000-2010 de la media

geomtrica de los ndices de Libertad

Comercial y Libertad Financiera.

Calculo del autor basado en

los ndices publicados por

The Heritage Foundation y

The Wall Street Journal 2010.

gnip

Ingreso Nacional per-cpita promedio

2000-2010. Componente del ndice de

Desarrollo Humano.

Programa de las Naciones

Unidas para el Desarrollo

(PNUD)

govspending1 Promedio del ndice de Gastos del

Gobierno 2000-2010.

Publicado por The Heritage

Foundation y The Wall Street

Journal

Fuente: Elaboracin del autor

31

4

METODOLOGA

En este trabajo se analiza una muestra de 149 pases para los cuales existen

datos actualizados al ao 2010 para todas las variables propuestas. Se

utilizar el promedio 2000-2010 para las variables independientes continuas,

complementadas por un conjunto de variables dictomas dadas las

caractersticas de los factores determinantes a utilizar. Todas las variables

continuas fueron tipificadas para evitar distorsiones por diferencias en las

escalas de medicin; Se verificaron los supuestos de no multicolinealidad y

las correcciones por heterocedasticidad pertinentes.

Se pretende generar con estos datos un modelo predictivo basado en redes

neuronales que pronostique el cuartil o grupo al que pertenece cada pas

segn su nivel de corrupcin segn el CPI de Transparencia Internacional a

partir de determinadas caractersticas socio-econmicas, histricas e

institucionales que delimiten su perfil. Este tipo de modelos se denominan

modelos predictivos de clasificacin, los cuales permiten agrupar a los

elementos de inters en dos o ms categoras diferentes representadas por

una variable no mtrica; el perfil se genera con base en los valores de un

conjunto de variables independientes combinadas funcionalmente.

Por lo tanto, los modelos de clasificacin se diferencian de los modelos de

regresin con variables dependientes categricas, que servirn como punto

de comparacin para este trabajo, en que los primeros predicen la

probabilidad de pertenencia de un elemento a una clase especfica dado un

conjunto de caractersticas que comparte con los dems miembros de esa

categora; mientras que los segundos predicen la probabilidad de pertenecer

a una clase para valores dados de las variables independientes lo que

32

presupone algn nivel de causalidad a priori9. Sin embargo, ambos tipos de

modelos clasifican a los individuos en grupos caracterizados por una variable

dependiente categrica.

En primer lugar, se aplica un modelo predictivo de clasificacin para las

variables tipificadas basado en redes neuronales artificiales Perceptrn

Multicapa con dos capas ocultas de seis y cinco nodos respectivamente,

proceso de entrenamiento batch y como algoritmo de optimizacin el

algoritmo de gradiente conjugado (Battiti, 1992), el cual se deriva del

algoritmo backpropagation fundamentndose en el clculo de la segunda

derivada del error con respecto a cada peso, y en obtener el cambio a

realizar en los pesos a partir de este valor y el de la primera derivada. Se

utilizarn funciones de activacin logsticas en las salidas de la red para

poder ser utilizada como una Funcin Discriminante no lineal (Biganzoli,

Boracchi, Mariani, & Marubini, 1998).

La importancia relativa de las variables en el proceso de clasificacin de la

red se estimar a travs de un anlisis de sensibilidad, que calcula la

importancia de cada predictor en la determinacin de la red neuronal. Por

ltimo, se determinar la direccin de las relaciones funcionales que tienen

las variables explicativas sobre la variable de respuesta mediante un anlisis

de sensibilidad numrica (NSA) propuesto por (Montao & Palmer, 2002)

que se basa en el clculo de las pendientes que se forman entre entradas y

salidas, sin realizar ningn supuesto acerca de la naturaleza de las variables

y respetando la estructura original de los datos.

Complementando lo anterior y para cumplir con los objetivos planteados se

estimar, en segundo lugar, un modelo Logit Ordinal y un Probit Ordinal y se

determinar si predicen correctamente el grupo de nivel de corrupcin al que

9 Un acercamiento matemtico a los principales mtodos clasificatorios paramtricos pueden encontrarse en

(Pea, 2002).

33

pertenecer un pas dadas las variables planteadas y la importancia relativa

de las diferentes variables sobre los niveles de corrupcin as como la

direccin de su influencia.

Los modelos de regresin ordinales son usados para estimar la relacin

entre una variable categrica ordinal dependiente y un conjunto de variables

independientes que pueden ser cuantitativas o categricas. En estos

modelos se supone la existencia de una variable latente que determina la

probabilidad de pertenecer a cada categora dados unos valores de las

variables regresoras, siendo estimada como una funcin lineal de las

variables independientes y un conjunto de valores denominados puntos de

corte que delimitan las categoras. La probabilidad de observar un resultado i

corresponde a la probabilidad de que la funcin lineal estimada genere un

valor dentro del rango de algn punto de corte estimado:

( )

donde i es el error asumido como distribuido logsticamente en el Logit

Ordinal y normalmente en el Probit Ordinal; y son los puntos de corte

para una de las clases de la variable dependiente, las variables

independiente y los coeficientes estimados de la funcin lineal estimada

para la variable latente supuesta. Los solo son relevantes en su signo y

nivel se significancia ya que carecen de significado cuantitativo.

Los resultados de los modelos estimados y del entrenamiento de la red sern

comparados en trminos estadsticos y a la luz de la teora. Si los resultados

son robustos y explicables en trminos tericos podremos concluir que el

MPL es una herramienta alternativa o por lo menos complementaria a los

modelos convencionalmente utilizados en estudios similares debido a que

sus resultados son extrados de los datos sin haber realizado supuestos o

restricciones iniciales sobre la naturaleza de estos.

34

5

RESULTADOS

5.1 Resultados obtenidos por la Red Neuronal Artificial Perceptrn

Multicapa

Debido al alto nivel de correlacin entre el nivel de libertad poltica de los

habitantes de un pas y el nivel de apertura econmica de este (como se

observa en el anexo 3), se entrenaron dos redes donde se incluyen cada una

de estas variables por separado respectivamente.

En la tabla 2 se pueden observar las sumas de errores cuadrticos

correspondientes a las funciones de error minimizadas por la red en sus

etapas de entrenamiento y prueba para el modelo que incluye todas las

variables propuestas menos el nivel de apertura econmica.

La tabla 3 muestra la clasificacin realizada por la red artificial tanto en la

etapa de entrenamiento como en la de prueba. Para la primera se tom una

Tabla 2

Resumen del modelo con todas las variables menos

gtradefinfree

Entrenamient

o

Suma de errores

cuadrticos

18,985

Porcentaje de pronsticos

incorrectos

26,2%

Prueba Suma de errores

cuadrticos

8,522


incorrectos

30,0%

Variable dependiente: Corrcateg4

Fuente: Elaboracin del autor con base en resultados del modelo.

35

muestra aleatoria estratificada correspondiente al 70% de los pases para

entrenar la red y se corrobor su aprendizaje y capacidad predictiva con el

30% restante. Se observa que al incluir todas las variables propuestas el

MLP fue capaz de clasificar correctamente el 70% de los pases

obtenindose, como era de esperarse, mejores resultados para los cuartiles

1 con un 88.9% y 4 con 100% correspondientes a los pases con mayor y

menor nivel de corrupcin respectivamente, en contraste con los cuartiles

centrales cuyo poder de clasificacin no es tan evidente.

Lo anterior implica que los pases con niveles extremos de corrupcin

presentan caractersticas muy comunes relacionadas con las variables

explicativas propuestas, las cuales determinan sus niveles de corrupcin.

Debido a que el porcentaje global de clasificaciones puede presentar

ambigedades como indicador del poder de clasificacin debido a los

diferentes tamaos de las categoras, el poder predictivo debe medirse

Tabla 3

Resultados de Clasificacin en cuartiles de corrupcin por MLP incluyendo todas las

variables independientes menos gtradefinfree

Muestra de Observado

Pronosticado

1 2 3 4

Porcentaje

correcto

Entrenamiento 1 45 7 1 0 84,9%

2 12 14 2 1 48,3%

3 1 2 8 2 61,5%

4 0 0 0 12 100,0%

Porcentaje global 54,2% 21,5% 10,3% 14,0% 73,8%

Prueba 1 16 2 0 0 88,9%

2 6 4 0 0 40,0%

3 0 3 1 2 16,7%

4 0 0 0 8 100,0%

Porcentaje global 52,4% 22,4% 2,4% 23,8% 70,0%



36

teniendo en cuenta la relacin entre buenas y malas clasificaciones10. El

grfico 2 evidencia el poder predictivo de la red entrenada, a travs de las

curvas COR cuyas reas ejemplifican la relacin existente entre la proporcin

de verdaderos positivos (Susceptibilidad: Pases bien clasificados en una

categora de acuerdo a su perfil) y la proporcin de falsos positivos (1-

Especificidad: Pases mal clasificados en esa categora de acuerdo a su

perfil), para cada uno de los cuartiles correspondientes a los niveles de

corrupcin; se tiene que un rea que se aproxime a 0 indicar que el tamao

de las muestras entre categoras influy en la aparente clasificacin de datos

y un rea que se aproxime a 1 indicar que son pocos los datos que se

clasificaron en esa categora por error. Se observa que las curvas 1 y 4

estn ms alejadas de la diagonal, lo que corrobora lo planteado

anteriormente.

La tabla 4 muestra las reas bajo cada curva COR. Se observa que aunque

el total de pases clasificados correctamente en los cuartiles 2 y 3 es

relativamente bajo, la proporcin de pases bien clasificados frente a los mal

clasificados en cada cuartil es elevada lo que indica un alto poder de

clasificacin.

10

Un ejemplo de lo engaoso que puede ser centrar los resultados en la capacidad de prediccin podra ser el

siguiente: Si se tienen 100 datos binomiales donde hay 80 unos y 20 ceros y queremos especificar un modelo

que prediga el nmero de cada dato con alguna probabilidad, con solo asignarle un 1 a cada dato sin ningn

tipo de diferenciacin, estara obteniendo un porcentaje de correctas clasificaciones de 80%.

Tabla 4

rea bajo la curva COR

rea

Corrcateg4 1 0,901

2 0,794

3 0,881

4 0,994

Fuente: Resultados del modelo.

37

Grfico 2

Curvas COR de MPL Entrenada con todas las

variables propuestas menos gtradefinfree


Tabla 5

Resumen del modelo con todas las variables menos indpolfree

Entrenamiento Suma de errores cuadrticos 19,319


incorrectos

20,8%

Prueba Suma de errores cuadrticos 10,241


incorrectos

32,6%



38

En la tabla 5 se pueden observar las sumas de errores cuadrticos

correspondientes a las funciones de error minimizadas por la red en sus

etapas de entrenamiento y prueba para el modelo que incluye todas las

variables propuestas menos el nivel de libertades polticas.

La tabla 6 muestra la clasificacin realizada por la red artificial tanto en la

etapa de entrenamiento como en la de prueba para el modelo sin incluir el

nivel de libertades polticas. Se sigui el mismo diseo muestral que en el

modelo anterior.

Se observa que el MLP fue capaz de clasificar correctamente el 76.1% de los

pases obtenindose un 96.6% para el cuartil 1 y 100% para el cuartil 4. As

Tabla 6

Resultados de Clasificacin en cuartiles de corrupcin por MLP incluyendo todas las

variables independientes menos indpolfree

Muestra Observado

Pronosticado

1 2 3 4

Porcentaje

correcto


2 11 11 3 1 42,3%

3 4 1 12 1 66,7%

4 0 1 0 16 94,1%

Porcentaje

global

54,4% 13,6% 14,6% 17,5% 77,7%

Prueba 1 28 0 1 0 96,6%

2 4 3 6 0 23,1%

3 0 0 1 0 100,0%

4 0 0 0 3 100,0%

Porcentaje

global

69,6% 6,5% 17,4% 6,5% 76,1%



39

Grfico 3

Curvas COR de MPL Entrenada con todas las

variables propuestas menos indpolfree

mismo, en el grfico 3 y la tabla 7 se observan las los resultados de las

curvas COR correspondientes, con resultados similares a los anteriores.


Tabla 7


rea

Corrcateg4 1 0,915

2 0,805

3 0,893

4 0,990


40

Una vez demostrada la pertinencia de la red, en los grfico 4 y 5 se aprecian

las variables incluidas en las redes entrenadas, siendo organizadas segn su

importancia normalizada en la clasificacin de los pases en niveles de

corrupcin. Se observa que el nivel de ingresos per-cpita, seguida del nivel

de apertura econmica y el nivel de libertades polticas son las variables ms

relevantes, lo que significa que los pases con diferentes niveles de

corrupcin comparten niveles muy semejantes en estas variables.


GRFICO 4

Importancia Relativa de las Variables

Independientes sin gtradefinfreee

41


Una de las principales desventajas del MPL es la dificultad de interpretar sus

resultados, sobre todo el nivel de significancia de las variables y el signo de

sus relaciones funcionales, por lo que este tipo de modelos fueron

catalogados durante algunos aos como cajas negras, es decir, modelos

que obtenan excelentes resultados clasificatorios pero que escondan las

relaciones funcionales obtenidas en estas clasificaciones (Montao &

Palmer, 2002).

GRFICO 5

Importancia Relativa de las Variables

Independientes sin indpolfree

42

Por tanto para este estudio, se opt por entrenar una red alternativa a la cual

se agregaron, una por una y en primer lugar las variables histricas, luego

las culturales e institucionales y por ltimo las polticas y socioeconmicas11.


11

Una metodologa similar fue empleada con herramientas economtricas tradicionales por (Treisman, 2000)

GRFICO 6

Importancia Relativa de las

Variables Independientes

43

Lo anterior con el fin de evidenciar las variables que incrementaban los

errores cuadrticos al ser incluidas y sus efectos sobre el poder de

clasificacin de la red. Segn este proceso iterativo, la red entrenada obtuvo

los mejores resultados con las variables observadas en el grfico 6, en el

cual tambin se observa su clasificacin por niveles de importancia

normalizada. Encontrndose entonces que las variables que mejor clasifican

a los pases en niveles de corrupcin son el nivel de ingresos promedio como

proxy del nivel de vida o pobreza, el nmero de procesos necesarios para

hacer cumplir un contrato, el nivel de apertura econmica y el de libertad

poltica12; la proporcin de poblacin protestante, el nmero de procesos

para asegurar los derechos de propiedad privada y las variables histricas

relacionadas con el ser colonia britnica y no haber sido colonizados. En la

tabla 8 se muestra que los resultados en cuanto a la suma de errores

cuadrticos y el porcentaje global de clasificacin son superiores.

12

Se obtuvieron los mismos resultados para las dos ltimas variables dados sus altos niveles de correlacin.

Tabla 8

Resumen del modelo con menor suma de errores cuadrticos

Entrenamiento Suma de errores

cuadrticos

19,455


incorrectos

24,3%

Prueba Suma de errores

cuadrticos

7,550


incorrectos

16,7%



44

La tabla 9 muestra la clasificacin realizada por la anterior red artificial tanto

en la etapa de entrenamiento como en la de prueba. Para la primera se tom

una muestra aleatoria estratificada correspondiente al 70% de los pases

para entrenar la red y se corrobor su aprendizaje y capacidad predictiva con

el 30% restante. Se observa que para estas variables el MLP fue capaz de

clasificar correctamente el 83.3% de los pases obtenindose mejores

resultados para los cuartiles 1 con un 100% y 4 con 100% correspondientes

a los pases con mayor y menor nivel de corrupcin respectivamente, en los

cuartiles centrales se obtuvo un 45.5% y 66.7% de correctas clasificaciones.

Tabla 9

Resultados de Clasificacin en cuartiles de corrupcin por MLP incluyendo solo las

variables independientes del modelo con menor suma de errores cuadrticos

Muestra Observado

Pronosticado

1 2 3 4

Porcentaje

correcto


2 11 14 3 0 50,0%

3 1 4 9 2 56,3%

4 0 1 0 12 92,3%

Porcentaje

global

54,2% 20,6% 12,1% 13,1% 75,7%

Prueba 1 21 0 0 0 100,0%

2 4 5 0 2 45,5%

3 1 0 2 0 66,7%

4 0 0 0 7 100,0%

Porcentaje

global

61,9% 11,9% 4,8% 21,4% 83,3%



45

La tabla 10 muestra las reas bajo las curvas COR de la red entrenada

donde se observan un alto poder de clasificacin.

5.2 Anlisis comparativos con modelos convencionales de respuesta

categrica ordinal13.

Como se plante anteriormente los modelos de regresin de respuesta

categrica ordinal convencionales realizan un conjunto de supuestos

estadsticos sobre los errores de estimacin y el comportamiento paramtrico

de las variables, por tanto es interesante comparar sus resultados con los

obtenidos por el MLP que utiliza otro paradigma en el proceso de

clasificacin.

5.2.1 Poder de Clasificacin

Tanto el modelo Logit Ordinal como el Probit Ordinal obtuvieron resultados

de clasificacin absoluta similares a los obtenidos por la red con 69% y 70%

respectivamente. Sin embargo, como se indic anteriormente estas cifras

pueden ser engaosas y por lo tanto el poder de clasificacin de un modelo

13

Como el nivel de apertura econmica y el de libertad poltica estn altamente correlacionados y en vista de

que los resultados obtenidos son muy similares, se realizar el anlisis de significancia solo para indpolfree generalizndose para el nivel de apertura econmica.

Tabla 10


rea

Corrcateg4 1 0,902

2 0,785

3 0,909

4 0,977


46

debe medirse teniendo en cuenta la relacin entre buenas y malas

clasificaciones.

Los anexos 4 al 7 muestran los resultados del poder de clasificacin del

modelo Logit Multinomial estimado. Como se observa, las reas bajo las

curvas COR fueron 0.1153, 0.5778, 0.8276 y 1.0 para los cuartiles 1, 2, 3 y 4

respectivamente: obtenindose resultados similares para el Probit

Multinomial. Esto revela que los modelos tradicionales estimados realmente

no clasificaron correctamente a los pases debido a que tendieron a clasificar

con mayor probabilidad a los pases en las categoras con ms cantidad de

datos.

Lo anterior muestra que a pesar de que el MPL entrenado presenta

resultados similares en cuanto a la cantidad de verdaderos positivos con

respecto a los modelos tradicionales estimados (pases bien catalogados en

su correspondiente categora), es mucho mas eficiente en cuanto al poder de

clasificacin ya que es menos influenciable por los tamaos muestrales de

las categoras y clasifica mejor a los verdaderos negativos (pases no

pertenecientes a una de las categoras y clasificados correctamente) como

no pertenecientes.

5.2.2 Significancia

Se comparan los resultados de los tres modelos en cuanto a la pertinencia

de las variables como determinantes del nivel de corrupcin percibida. La

tabla 11 muestra estos resultados. Se presentan primero la estimaciones del

Logit Ordinal y el Probit Ordinal; la ltima columna seala si la variable fue o

no incluida en la red entrenada que present los menores errores

cuadrticos. Se observa que los valores p indican que no existe relacin

significativa entre el nivel de gasto pblico y el haber sido colonia espaola14

14

Este resultado contradice una creencia muy arraigada en las poblaciones de los pases Latino Americanos

sobre la responsabilidad del colonialismo Espaol sobre los niveles de subdesarrollo de la Regin (Leyenda Negra).

47

con los niveles de corrupcin de los pases estudiados. La poca importancia

que parece presentar el nivel de gasto del gobierno o tamao del Estado se

puede deber a que se incluyen tanto los pases desarrollados como los

pases en va de desarrollo en una misma base de datos. Cuando se

aliment la red slo con la variable govspending1 se obtuvo un 0% de

correctas discriminaciones para los cuartiles 2 al 4 pero un 95.2% de los

pases en el cuartil 1 fueron correctamente clasificados y la relacin entre las

variables fue negativa. Esto parece corroborar las hiptesis que plantean que

los pases ms corruptos comparten instituciones gubernamentales comunes

que provocan que entre mayor sea el tamao del Estado mayor ser el nivel

de corrupcin percibida cuando los pases son ms ineficientes. No obstante

se queda en deuda al no demostrar de forma ms rigurosa estos

planteamientos debido a que requiere otro tipo de anlisis que escapan a los

objetivos de este trabajo.

El nmero de procesos necesarios para asegurar derechos de propiedad

sobre empresas privadas result significativo al 10% por lo que parece haber

evidencia estadstica a favor de su relevancia; esto se corrobora por su

inclusin dentro del modelo MLP con menor error cuadrtico.

Como puede observarse el resto de variables son significativas para explicar

los niveles de corrupcin y coinciden los resultados obtenidos por los

modelos comparados.

48

5.2.3 Importancia relativa y signo de la relacin funcional

Siguiendo la metodologa propuesta, las tablas 12 y 13 muestran la

importancia relativa normalizada de las variables dentro de cada modelo. La

importancia relativa de las variables para los modelos Logit y Probit

estimados se calcul como:

donde es la FDA supuesta por el modelo, un escalar el vector de

medias de las variables independientes y el vector de coeficientes.

Presentando este clculo como elasticidades y normalizando se muestra la

importancia relativa promedio para cada variable de acuerdo a su influencia

en la variacin de la probabilidad de pertenecer a intervalos de confianza

Tabla 11

Significancia de las variables planteadas

VARIABLES

LOGIT

ORDINAL PROBIT ORDINAL MPL

Corrcateg4 z P>z z P>z

Menor error

cuadrtico

procrigts -1.63 0.104 -1.62 0.105 SI

proccontract -2.70 0.007 -2.81 0.005 SI

indpolfree -3.51 0.000 -3.63 0.000 SI

gnip 4.44 0.000 4.63 0.000 SI

govspending1 -0.18 0.859 -0.43 0.668 NO

ESP -0.12 0.902 0.28 0.778 NO

ING 2.49 0.013 2.83 0.005 SI

ning 3.03 0.002 3.37 0.001 SI

prot 2.25 0.025 2.40 0.017 SI

Fuente: Calculo del autor.

49

mayores (menos corruptos). El proceso para determinar la importancia

relativa de las variables en el MLP fue descrito en la metodologa.

Tabla 12

Importancia relativa y signo de las relaciones funcionales para los modelos

planteados incluyendo indpolfree

VARIABLE LOGIT ORDINAL PROBIT ORDINAL MLP

Corrcateg4 Imp.relativa SIGNO Imp.relativa SIGNO Imp.relativa SIGNO

ESP 0 - 1 + 20 -

gnip 70 + 89 + 100 +

govspending1 3 - 8 - 16 -

indpolfree 35 - 33 - 78 -

ING 11 + 13 + 22 +

ning 16 + 23 + 37 +

proccontract 100 - 100 - 61 -

procrigts 25 - 23 - 43 -

prot 12 + 18 + 47 +

Fuente: Clculos del Autor

Se observa que la variable ms importante en su poder explicativo segn los

modelos convencionales fue el nmero de procesos para hacer valer un

contrato proccontract cuando se incluy el nivel de libertad poltica

indpolfree, mientras que para la red fue el nivel de ingresos per-cpita.

Cuando se incluye el nivel de apertura econmica gtradefinfree esta

resulta ser la ms relevante para el Logit mientras que para el Probit es el

nivel de ingresos. Tanto al incluir el nivel de libertad poltica como el nivel de

apertura econmica, el MLP resulto ser ms consistente en sus resultados,

ya que para ambos entrenamientos estas mostraron ser las segundas en

importancia y el nivel de ingreso ocup el primer lugar.

50

Tabla 13

Importancia relativa y signo de las relaciones funcionales para los modelos

planteados incluyendo gtradefinfree

VARIABLE LOGIT ORDINAL PROBIT ORDINAL MLP

Corrcateg4 Imp.relativa SIGNO Imp.relativa SIGNO Imp.relativa SIGNO

ESP 0 - 1 + 8 -

gnip 48 + 89 + 100 +

govspending1 12 - 8 - 30 -

gtradefinfree 100 + 33 + 74 +

ING 9 + 13 + 19 +

ning 14 + 23 + 30 +

proccontract 80 - 100 - 60 -

procrigts 12 - 23 - 50 -

prot 8 + 18 + 51 +

Fuente: Clculos del Autor

Se observa tambin que todos los modelos coinciden en el signo de la

relacin funcional para las variables significativas, donde las positivas

significan que existe una relacin directa entre incrementos de la variable

independiente y la probabilidad de ser asignado a cuartiles superiores o

menos corruptos; las negativas significan la relacin contraria.15

5.3 La teora

En todos los modelos estimados se obtuvieron resultados consistentes con

las explicaciones tericas ms importantes y los hallazgos de estudios

anteriores. Se encontr evidencia de que entre ms ineficientes sean los

sistemas judiciales de los pases y menos libertades polticas sean

respetadas para sus habitantes, mayores sern los niveles de corrupcin

percibida para estos. Tambin, si un pas fue colonia britnica o nunca ha

sido colonizado, tendr menor probabilidad de ser clasificado como corrupto;

15

Debe recordarse que el signo negativo obtenido en indpolfree se debe a que, segn su descripcin, la variable se incrementa a medida que se reducen las libertades polticas.

51

una mayor proporcin de poblacin protestante result significativa para ser

clasificado como menos corrupto.

En cuanto al nivel de calidad de vida, se encontr evidencia de que los

pases ms pobres suelen ser clasificados como ms corruptos. Igualmente

sern menos corruptos aquellos pases ms abiertos a los mercados

internacionales. No se encontr evidencia estadstica clara sobre la

importancia del nivel de gasto pblico como determinante de los niveles de

corrupcin, por lo que se requieren estudios ms especficos sobre este

tema.

El haber sido colonia espaola parece no ser relevante para explicar la

variable dependiente. Esto contradice las creencias arraigadas en Amrica

Latina sobre las causas histricas de la corrupcin.

Estos resultados coinciden con los planteamientos tericos ms comunes en

la literatura especializada sobre el tema. Ponindose a prueba, en este

trabajo, desde un paradigma de clasificacin a diferencia de las herramientas

economtricas comnmente utilizadas en este tipo de investigaciones.

52

6

CONCLUSIONES

Se ha entrenado una red neuronal artificial MLP capaz de predecir el nivel de

corrupcin de un, pas dado por el CPI de Transparencia Internacional, a

partir de determinadas caractersticas culturales, histricas, polticas,

institucionales y socio-econmicas que delimitan su perfil.

El Perceptrn Multicapa (MLP) obtuvo excelentes resultados en cuanto al

poder de clasificacin frente a los modelos convencionales Logit Ordinal y

Probit Ordinal, lo que confirma su utilidad como herramienta alternativa en

este tipo de aplicaciones. Adems, todos los modelos aplicados mostraron

resultados similares en cuanto a la relevancia de las variables

independientes para explicar el nivel de corrupcin de los pases tratados,

confirmando la robustez de la clasificacin realizada por las redes MLP

entrenadas.

Se encontr evidencia de que entre ms ineficientes sean los sistemas

judiciales de los pases y menos libertades polticas sean respetadas para

sus habitantes mayores sern los niveles de corrupcin percibida para estos.

Tambin, si un pas fue colonia britnica o nunca ha sido colonizado, tendr

menor probabilidad de ser clasificado como corrupto; una mayor proporcin

de poblacin protestante result significativa para ser clasificado como

menos corrupto.

En cuanto al nivel de calidad de vida, se encontr evidencia de que los

pases ms pobres suelen ser clasificados como ms corruptos. Igualmente

sern menos corruptos aquellos pases ms abiertos a los mercados

internacionales. No se encontr evidencia estadstica clara sobre la

53

importancia del nivel de gasto pblico o tamao del Gobierno como

determinante de los niveles de corrupcin ni de que haber sido colonia

espaola sea relevante para explicar la variable dependiente.

54

7

ANEXOS

ANEXO1

Correlacin entre ndice de Percepcin de Corrupcin de Transparencia Internacional y el

ndice Control of Corruption del Banco Mundial

corrwb CPI

corrwb 1

CPI 0.9832 1

corrwb: Control of Corruption Banco Mundial

CPI: ndice de Percepcin de Corrupcin de Transparencia Internacional

Fuente: Clculos del autor.

ANEXO 2

Niveles de correlacin entre componentes del ndice de Desarrollo Humano IDH

promidh

lifeexpectancy

Meanyearsofschooling

Expectedschooling gnip

promidh 1

lifeexpectancy 0,898 1

Meanyearsofschooling 0,8895 0,7247 1

Expectedschooling 0,9029 0,7974 0,8371 1

gnip 0,7332 0,6176 0,5794 0,6244 1

Fuente: Clculos del Autor.

55

ANEXO 4

Curva COR categora 1 Logit Ordinal

ANEXO 3

Niveles de Correlacin entre las variables propuestas

procri- proccon indp prom gnip gtradef govsp pro

procrigts 1

proccontract 0,183 1

indpolfree 0,152 0,442 1

promidh -0,22 -0,383 -0,566 1

gnip -0,255 -0,291 -0,403 0,733 1

gtradefinfree -0,288 -0,455 -0,701 0,647 0,543 1

govspending1 0,059 0,258 0,431 -0,4571 -0,395 -0,328 1

prot -0,167 -0,259 -0,321 0,1986 0,229 0,339 -0,336 1

Fuente: Clculos del Autor.

56

ANEXO 5


57

ANEXO 6


58

ANEXO 7


59

REFERENCIAS

Alesina, A., & Weder, B. (2002). Do Corrupt Governments Receive Less Foreign

Aid? The American Economic Review, 92(4), 1126-1137.

Bardhan, P. (1997). Corruption and development: a review of issues. Journal of

Economic Literature, 1320-1346.

Battiti, R. (1992). First and second order methods for learning: between steepest

descent and Newton's method. Neural Computation, 4(2), 141-166.

Biganzoli, E., Boracchi, P., Mariani, L., & Marubini, E. (1998). Feed-forward neural

networks for the analysis of censored survival data:a partial logistic regression

approach. Statistics in Medicine, 17(10), 1169-1186.

Billger, S., & Goel, R. (2009). Do existing corruption levels matter in controlling

corruption? Cross-country quantile regression estimates. Journal of

Development Economics(90), 299-305.

Boeninger, E. (1991). Governance and development: issues and constraints. The

WorldBank: Proceedings of the World Bank annual conference on

development economics, 267-287.

Dreher, A., Kotsogiannis, C., & McCorriston, S. (2007). Corruption around the

world: Evidence from a structural model. Journal of Comparative

Economics(35), 443-466.

Funahashi, K. (1989). On the approximate realization of continuous mappings by

neural networks. Neural Networks, 2, 183-192.

Goel, R., & Nelson, M. (2010). Causes of corruption: History, geography and

government. Journal of Policy Modeling, 32, 433-447.

Granger, C., & Tersvirta, T. (1993). Modelling Nonlinear Economic Relationships.

Advanced Texts in Econmetrics. Oxford University Press.

Grossman , G., & Helpman, E. (1994). Protection for sale. . American Economic

Review(84).

Klitgaard, R. (1988). Controlling Corruption. Berkeley and Los Angeles: University

of California, 32.

La Porta, R. L.-D.-S. (1999). The quality of government. Journal of Law, Economics

and Organization(15), 222279.

60

Lambsdorff, J. G. (2007). The Institutional Economics of Corruption and Reform.

Theory, Evidence and Policy. Passau, Alemania: Hardback.

Lancaster , T., & Montinola, G. (1997). Toward a methodology for the comparative

study of political corruption. Crime, Law and Social Change, 185-206.

Montao, M. J., & Palmer, A. (2002). Redes neuronales artificiales: abriendo la caja

negra. Metodologa de las Ciencias del Comportamiento, 4(1), 77-93.

Palmer, A., Montao, J., & Jimnez, R. (2001). Tutorial sobre Redes Neuronales

Artificiales: El Perceptrn Multicapa. REVISTA ELECTRNICA DE

PSICOLOGA.

Pellegrini, L., & Gerlagh, R. (2007). Causes of corruption: a survey of cross-country

analyses and extended results. Economics of Governance.

Pea, D. (2002). Anlisis de Datos Multivariantes. Madrid: McGraw-Hill.

Pres, C. (2008). Econometra Avanzada. Tcnicas y Herramientas. Madrid: Pearson.

Philp, M. (1997). Defining political corruption. Political Studies (Special Issue)(45),

43562.

Picn, C. (2011). Is there more corruption in countries less opened to international

markets? application of a predictive classification model based on neural

networks. Revista de Economa del Caribe(8, ), 45-79.

Rodrik, & Dani. (2002). Institutions, Integration, and Geography: In Search of the

Deep Determinants of Economic Growth. Princeton NJ: Princeton University

Press.

Rodrik, D., Subramanian, A., & Trebbi, F. (2002). Institutions rule: The primacy of

institutions over geography and integration in economic development.

Discussion paper 3643. CEPR.

Rose-Ackerman. (1998). Corruption and development. Annual World Bank

Conference on Development Economics , 35-57.

Rose-Ackerman, S. (1999). Corruption and Government: Causes, Consequences, and

Reform. Cambridge University Press.

Rumelhart, D., Hinton, G., & Williams, R. (1986). Learning internal representations

by error propagation. (D. R. (Eds.), Ed.) Cambridge, MA: MIT Press, 318-362.

61

Sandholtz, W., & Koetzle, W. (2000). Accounting for Corruption: Economic

Structure, Democracy, and Trade. International Studies Quaterly, 44, 31-50.

Svensson, J. (2005). Eight Questions about Corruption. Journal of Economic

Perspectives, 19(3), 19-42.

Tanzi, V. (december de 1998). Corruption Around the World Causes, Consequences,

Scope, and Cures. IMF Staff Papers, 45(4), 559-594.

Treisman, D. (2000). The causes of corruption: a cross-national study. Journal of

Public Economics, 76, 399-457.

Zhang, G., Patuwo, E., & Hu, M. (1998). Forecasting with artificial neural networks:

The state of the art. International Journal of Forecasting, 14, 35-62.

redes neuronales aplicadas al estudio de la corrupción

Documents