simulaciÓn del dilema del prisionero a partir ...(primordiales para la justificación del presente...

23
29 Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, BogotÆ (Col.) Suma Psicológica, Vol. 11, No. 1: Marzo de 2004, 29-52, ISSN 0121-4381 SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR DE MODELOS CONEXIONISTAS DE APRENDIZAJE POR REFORZAMIENTO JuliÆn Tejada H., Lina María Perilla R., Sara Victoria Serrato V., AndrØs Felipe Reyes G. Grupo de Neurocomputación 1 Fundación Universitaria Konrad Lorenz, Colombia ABSTRACT: The development of computers has allowed the generation of models that let simulate the behavior of the alive organisms under controlled conditions, where the manipulation of the variables can be done in a precise way. Actually, the simulation models are based on the behavior of dynamic systems: as the Neural Networks, inside them arises one that is based on operating conditioning and it is named Reinforcement Learning. In the present investigation it was simulated through this model the Prisoners Dilemma (PD), manipulating a variable that determines a motivational level of the organisms that make them to be cooperative. They were carried out around 187.800 essays in those who the digital organisms had to confront the PD, manipulating 6 motivational levels. The results allow to identify an intrinsic characteristic of the PD and it is that, under certain conditions the organisms opted not to confess in a consistent way without this reason we can affirm that they are being cooperative or self-controlled because in the simulation we decided that the organism did not have any knowledge of the existence of the other one, neither of the effects that their actions had on the consequences that their partner received. Key words: prisoners dilemma, reinforcement learning, cooperation, self- control, connectionism, simulation. 1 Correspondencia: Grupo de Neurocomputación FUKL, [email protected]

Upload: others

Post on 18-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 29

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

Suma Psicológica, Vol. 11, No. 1:Marzo de 2004, 29-52,ISSN 0121-4381

SIMULACIÓN DEL DILEMA DELPRISIONERO A PARTIR DE MODELOS

CONEXIONISTAS DE APRENDIZAJEPOR REFORZAMIENTO

Julián Tejada H.,Lina María Perilla R.,

Sara Victoria Serrato V.,Andrés Felipe Reyes G.

Grupo de Neurocomputación 1

Fundación Universitaria Konrad Lorenz, Colombia

ABSTRACT:

The development of computers has allowed the generation of models that letsimulate the behavior of the alive organisms under controlled conditions,where the manipulation of the variables can be done in a precise way.Actually, the simulation models are based on the behavior of dynamicsystems: as the Neural Networks, inside them arises one that is based onoperating conditioning and it is named Reinforcement Learning. In thepresent investigation it was simulated through this model the Prisoner�sDilemma (PD), manipulating a variable that determines a motivational levelof the organisms that make them to be cooperative. They were carried outaround 187.800 essays in those who the digital organisms had to confrontthe PD, manipulating 6 motivational levels. The results allow to identifyan intrinsic characteristic of the PD and it is that, under certain conditionsthe organisms opted not to confess in a consistent way without this reasonwe can affirm that they are being cooperative or self-controlled because inthe simulation we decided that the organism did not have any knowledge ofthe existence of the other one, neither of the effects that their actions had onthe consequences that their partner received.

Key words: prisoner�s dilemma, reinforcement learning, cooperation, self-control, connectionism, simulation.

1 Correspondencia: Grupo de Neurocomputación FUKL, [email protected]

Page 2: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.30

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

RESUMEN

El desarrollo de los computadores ha permitido la generación de modelosque permiten simular el comportamiento de los organismos vivos en condi-ciones controladas donde la manipulación de las variables se puede ha-cer de manera precisa. En la actualidad, los modelos de simulación sebasan en el comportamiento de sistemas dinámicos, como las RedesNeuronales. Dentro de estos modelos se destaca uno que se basa en elcondicionamiento operante y se denomina Aprendizaje por Reforzamiento.En la presente investigación se simuló a través de este modelo el Dilemadel Prisionero (DP), manipulando una variable que determinaba un nivelmotivacional de los organismos que los incitaba a ser cooperativos. Serealizaron alrededor de 187.800 ensayos en los que los organismosdigitales tenían que enfrentarse al DP manipulando 6 niveles de motiva-ción. Los resultados permiten identificar una característica intrínseca alDP y es que bajo ciertas condiciones los organismos optaron por no confe-sar de manera consistente, sin que por esto se pueda afirmar que estánsiendo cooperativos o autocontrolados. Lo anterior se debe a que en lasimulación se decidió que los organismos no iban a tener conocimiento dela existencia del otro ni del efecto que sus acciones tenían sobre las conse-cuencias que su compañero recibía.

Palabras Clave: dilema del prisionero, aprendizaje por reforzamiento,cooperación, autocontrol, conexionismo, simulación.

H oy en día se están desarrollan-do nuevos modelos acerca delprocesamiento que ocurre en

el cerebro; estos modelos con los quese trabaja hoy en día utilizan el com-putador no como una metáfora de éste,sino como una herramienta de cóm-puto; las metáforas ahora hacen refe-rencia a cualquier sistema que poseamuchas unidades que al interactuarprovoquen un comportamiento com-plejo en ausencia de algún mecanis-mo central que lo oriente. Por ejemplo,se sabe que la interacción de las cé-lulas neuronales a partir de un com-portamiento individual relativamentesencillo genera comportamientos com-plejos tan interesantes como la me-moria o el aprendizaje (Lin & Lee,

1996; Haykin, 1999). Así mismo, exis-ten modelos que se basan en el com-portamiento de las colonias de lashormigas en el que se exhiben mu-chas unidades que interactúan y seorganizan para realizar tareas comple-jas como la de construir un hormigue-ro, en el que no se requieren planospara construirlo ni arquitectos que di-rijan su elaboración (Merkle &Middeendorf, 2002). Los modelosmencionados anteriormente com-parten un origen común: la neuronaartificial de McCulloch y Pitts(McCulloch & Pitts, 1943; Rumelhart,McClelland, & el grupo PDP, 1992); noobstante, han tomado direcciones tanamplias que difícilmente se puedenagrupar en lo que se denominan Re-

Page 3: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 31

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

des Neuronales o conexionismo, y ac-tualmente coexisten los modelos fun-damentados en el comportamientoneuronal y el aprendizaje con otrosmodelos basados en los procesos deevolución genética, dentro de los quese encuentran los modelos que se ba-san en las ya mencionadas colonias delas hormigas (Merkle et al., 2002). To-dos estos modelos han sido posibles deestudiar gracias a los computadores yaque están basados en procesos reitera-tivos, en los que una operación mate-mática sencilla se puede repetir cientosde veces, y utilizan un alto contenidode números aleatorios para lograr quesean estocásticos, es decir, que su com-portamiento sea probabilístico y nodeterminista.

Dada la diversidad de los modelos,son pocas las cosas que tienen en co-mún; aún así, se pueden identificar almenos tres: (a) unidades de procesa-miento simple que realizan operacio-nes matemáticas sencillas, (b) uncomportamiento individual que carac-teriza lo que pueden hacer las unida-des simples y (c) un comportamientocolectivo que determina la maneracomo estas unidades simples debeninteractuar con otras unidades.

El interés que han generado estosmodelos se podría atribuir a muchasrazones dentro de las que se destacasu capacidad de aprendizaje, entendi-da como �cualquier cambio en un sis-tema que le permite resolver mejor unatarea por segunda vez u otra tarea si-milar� (Zhu, & Simon, 1987). Esto tie-ne diversas repercusiones no sólo enla psicología o las ciencias del compor-

tamiento, sino también en las mate-máticas y las ciencias de la computa-ción. Para la psicología, dichos modelosse convierten en herramientas que lepermiten simular y estudiar detallada-mente fenómenos cognoscitivos ocomportamentales, para la matemá-tica y la computación son modelos quepermiten optimizar funciones y reali-zar tareas de clasificación en situacio-nes en las que otros procedimientos noalcanzarían un resultado óptimo.

Actualmente, los modelos cone-xionistas son principalmente utilizadosen tres grandes áreas: (a) en elmodelamiento del sistema nervioso ydel comportamiento; este enfoque tie-ne por objetivo la construcción de mo-delos que ayuden a entender unfenómeno específico; por ejemplo, si-mular el procesamiento cerebral queocurre en una lesión cerebral como laesquizofrenia (Cheng, 1994). (b) Comoprocedimientos que controlanhardware, los cuales son una típicaaplicación industrial, en la que losalgoritmos basados en modelosconexionistas responden ante situacio-nes para las que los algoritmos tradi-cionales no pueden dar una respuestaadecuada debido a la naturaleza diná-mica del problema, un ejemplo de esteenfoque es lo que hizo Rivals (1995) alentrenar una Red Neuronal Artificial(RNA) para que controlara un vehículoMercedes 4-WD mientras se desplazalongitudinalmente. Y (c) como métodosde análisis de información (Price,2000, p. 41). En este apartado estántodas aquellas aplicaciones en las quese utiliza las RNA como algoritmos de

Page 4: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.32

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

búsqueda y clasificación; un ejemplo,de este apartado es la utilización deRNA para hacer predicciones financie-ras en situaciones de alto riesgo, comola predicción de los precios del próxi-mo día para la US Treasury (O�Rourke,1999).

Aparte de los detalles puramentetécnicos, la aplicación de estos mode-los requiere un análisis cuidadoso delproblema que se pretende abordar paralograr determinar cuál es el modelomás apropiado. El presente artículoescrito por psicólogos es un resumendetallado que pretende orientar la apli-cación de este tipo de modelos a unproblema en concreto, y tiene comoobjetivo ayudar a la popularización deestos modelos demostrando su perti-nencia y sobre todo demostrando queson modelos factibles de aplicar.

EL DILEMA DEL PRISIONERO

Como en cualquier aplicaciónilustrativa, la elección del problema aabordar fue uno de los asuntos másimportantes, dada su pertinencia yrelevancia en el contexto psicológico(primordiales para la justificación delpresente trabajo); por esta razón, seseleccionó un problema ampliamenteinvestigado, al menos, en el área deeconomía (Reyes, 2003): el Dilema delPrisionero (DP).

La teoría de juegos ha propuestoun análisis de la interacción entre in-dividuos que actúan proceden de conreglas específicas. A través de los años,un juego conocido como el DP ha atraí-do la atención de las áreas de conoci-miento más diversas que han tenido

algún interés en entender el compor-tamiento entre los organismos (Reyes,2003), entre las que se encuentran laeconomía, la biología evolutiva, la zoo-logía, la psicología social y la experi-mental, las matemáticas, la física, lasciencias de la computación, la sociolo-gía, la filosofía, la política, las relacio-nes internacionales y demás áreasenfocadas a la resolución de conflic-tos, justicia y persuasión (se recomien-da revisar a Axelrod, 1984; Caporael,Dawes, Orbell, y Van de Kragt, 1989;Rachlin, 2002, quienes tratan exten-samente el tema).

El DP ejemplifica el conflicto entrelos intereses individuales y colectivosde quienes toman decisionesdisyuntivas, las cuales son igualmen-te factibles y defendibles (Barrios s.f.),entendiéndose conflicto como una cla-se especial de frustración que ocurrecuando una meta es bloqueada por unameta competitiva (Beck, 1990). Su ver-sión original involucra a dos jugadoresque deben escoger entre dos alternati-vas de respuesta, generalmente llama-das cooperar y desertar, donde losindividuos tienen sólo una oportunidadde responder y no saben cuál será laelección del otro. Cooperar es elegir unaalternativa que trae para ambos juga-dores una recompensa más alta que laque obtendrían con la otra alternativaque ofrece beneficios individuales; enotras palabras, es adoptar una estra-tegia que beneficie a todos los jugado-res. Desertar es elegir una alternativaque le ofrece una recompensa alta aljugador que la elige, y que generalmen-te sólo lo beneficia a él.

Page 5: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 33

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

Dependiendo de la combinación delas decisiones tomadas por ambosjugadores, cada uno recibe una de cua-tro recompensas posibles a menudodenotadas por T (temptation), que re-presenta la recompensa más alta po-sible y la tentación para desertar; S(sucker), representa la peor recompen-sa posible y resulta cuando uno de losdos jugadores ha cooperado y el otro ledeserta; P (punishment), que significael castigo por la deserción mutua, y R(reward) es la recompensa por la coope-ración recíproca. La asignación de es-tos valores obedece a una regla que hasido referida por varios autores:S<P<R<T (Green, Price & Hamburguer,1995; Rosen & Haaga, 1998; Axelrod,1984), en la que se observa una rela-ción entre los valores de las recompen-sas en la que siempre debe ser mayorla recompensa que se obtiene cuandoalguno de los prisioneros deserta y elotro coopera, inclusive por encima dela situación en la que ambos decidencooperar. Sin embargo, se recomiendaque el valor de se obtenga a partir dela fórmula R>(T+S)/2 (Green, Price &Hamburguer, 1995, Rosen & Haaga,1998 y Axelrod, 1984), con el fin de quela alternativa de cooperar sea tambiénatractiva. Axelrod explica lo anterior dela siguiente manera: una parte de ladefinición del dilema del prisionero esque los jugadores no pueden librarse(salir, escapar) de su dilema explotan-do al otro en cada turno, como sí lo ha-rían en un juego sencillo, porque sabenque aunque les puede ir mal, ésta si-gue siendo la mejor opción. Asumir estosignifica que si en cada oportunidad

deserto y soy desertado, la recompen-sa para cada jugador no es tan buenacomo la recompensa por la cooperaciónmutua. Por esto, se deduce que el pro-medio de la recompensa por la recipro-cidad en la cooperación es mayor queel promedio de la recompensa por latentación (T) y la paga por actuar de laforma (S). Lo anterior, junto al ranking

de las recompensas, define al Dilemadel Prisionero.

Los valores de recompensa se pue-den ver más claramente en la matrizde la figura 1. De acuerdo con la teoríade juegos, en la versión de un solo en-sayo, es decir, cuando hay un solo en-frentamiento entre los jugadores, lamejor elección es desertar, porque estaacción maximiza la recompensa sintener en cuenta lo que su oponentehaga (Lloyd, 1995); pero el dilema radi-ca en que si ambos desertan cada unorecibe una recompensa de menor uti-lidad de la que tendrían si ambos hu-bieran cooperado, como se puede veren la figura 1. Sin embargo, las varia-ciones al DP o su complejidad depen-den del interés del investigador y delárea en que trabaje.

Existe una versión iterada del jue-go en la que los participantes se en-frentan más de una vez y donde, adiferencia del juego sencillo, la mejoropción podría ser cooperar porque elproblema que enfrentan los jugadoreses distinto ya que la recompensa finalno es la inmediata sino que debe pen-sarse como una serie de consecuen-cias que hay que tratar de maximizar.Cooperar podría ser la mejor opciónpara alcanzar el objetivo final en esta

Page 6: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.34

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

variación del juego si se consideraque el bienestar común puedetraducirse en bienestar individual.Sin embargo, hay juegos de este tipoen los que cooperar es la peor estra-tegia; la definición más clara de lo quepuede ser la respuesta racional eneste juego, es que mi respuesta ra-cional (si racional implica ser la másóptima) depende de la estrategia delotro jugador, porque como lo mencio-na Hargreaves y Varoufakis (1996),aunque no confesar se puede ver como�la mejor� alternativa, el hacer creeral otro que no confesaremos podría seraún mejor (para profundizar en esteanálisis, véase Rachlin, 2000;Hargreaves, et al., 1996, quienes pro-ponen versiones del DP muy intere-santes). En esta versión del dilemadel prisionero se pueden inducir com-

portamientos de reciprocidad, puedenenviarse mensajes de �no agresión�,pueden desarrollarse estrategias dejuego y/o desarrollar una reputación(Shafir & Tversky, 1992).

Como Wilke, Messick, & Rutte afir-man: �una alternativa más implica queen cada uno de los enfrentamientos losindividuos pueden tomar decisionescooperativas que maximizan las ga-nancias grupales mientras sacrificanalgunas que son mejores a corto plazoa nivel individual, o pueden desertarpara tomar una decisión no cooperati-va que maximiza inmediatamente lasganancias individuales mientras quelimita las ganancias del grupo (Camac,1986). Cuando todos los individuos enel grupo actúan para maximizar susganancias individuales el grupo obtie-ne ganancias deficientes� (Wilke, et

FIGURA 1. Matriz de recompensas para el ensayo del dilema del prisionero. Encualquiera de las cuatro celdas, el número de la izquierda es el resultado para eljugador 1 y el número de la derecha es el resultado para el jugador 2.

Jugador 1

Jugador 2

Cooperar Desertar

Cooperar3, 3 0, 5

(R, R) (S, T)

5, 0 1, 1

(T, S) (P, P)Desertar

Page 7: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 35

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

al., 1986, citado por Rosen, Haaga,1998, p. 143).

Esta versión iterada del DP es lamás apropiada para abordar el proble-ma de la cooperación, dado que losparticipantes deberán estar expuestosa la situación de elección más de unavez; de esta manera, la experiencia deinteracción afecta significativamente ladecisión que toma cada uno de los in-dividuos. Por esta razón nuestro inte-rés se centró en el DP iterado, y elproblema de investigación es lograr de-terminar si esta versión del DP se po-día simular a través de modelosconexionistas.

MÉTODO

El modelado a través de sistemasconexionistas involucra una serie depasos específicos para determinar cuálde todos los modelos es el más apro-piado para abordar el problema. En-tonces se describirá inicialmente laruta que nos llevó a tomar la decisiónde utilizar el Aprendizaje porReforzamiento, para después sí descri-bir detalladamente el procedimiento dela investigación específica.

PROCEDIMIENTO PARA LA ELECCIÓNDEL MODELO

El primer paso, y tal vez el más im-portante, es el de seleccionar el mo-delo de aprendizaje a utilizar, ya quede su elección depende el enfoqueque se va a adoptar. Inicialmente, setomó la decisión de utilizar modelosconexio-nistas basados en el apren-dizaje, ya que anteriormente se ha-

bían utilizado para abordar el mismoproblema (Burgos, 1999a; 199b; 2001).Actualmente se puede afirmar queexisten tres enfoques diferentes enlos modelos basados en el aprendi-zaje, cada uno de ellos aplicable aciertos problemas según las carac-terísticas de cada modelo. El primerode ellos es el aprendizaje supervisado

(Lin et al., 1996), que se caracterizaporque el sistema no sólo debe alcan-zar un objetivo, sino que dicho objeti-vo está claramente determinado. Unbuen ejemplo del tipo de problemasque se pueden abordar con este mo-delo es la toma de decisiones clíni-cas (Price, Spitznagel, Downey, Risk& El-Ghazzawy, 2000), ya que en esteproblema hay una respuesta correc-ta y el sistema debe encargarse declasificar adecuadamente al pacien-te dentro de un diagnóstico específi-co. El más común de los modelos deaprendizaje supervisado es el de laRetropropagación del Error (para en-contrar más información acerca deese modelo se recomienda revisarRussel & Norving, 1995; Lin et al.,1996; Haykin, 1999; O�Reilly &Munakata, 2000).

El segundo tipo de modelos se sue-le denominar aprendizaje no supervisa-

do (Lin et al., 1996). En éste, el sistemase enfrenta con un problema que notiene respuesta correcta y su objetivoes encontrar regularidad entre los da-tos presentados para clasificarlos. Esnecesario aclarar que aunque el obje-tivo sea clasificar, como en el anteriormodelo, la clasificación no se constru-ye a partir de criterios externos que

Page 8: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.36

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

retroalimenten el desempeño del sis-tema, sino que surge de las regulari-dades que presenten los datos.

El tercer modelo es el aprendizaje

por reforzamiento (AR) (Lin et al., 1996)y (Haykin, 1999), en el que tambiénexiste una meta que el sistema debealcanzar, lo que no implica que hayauna única manera de lograrlo. Es unmodelo muy apropiado en problemasen los que el objetivo sea laoptimización de un proceso con con-diciones cambiantes (Sutton & Barton,1998).

En el proceso de decidir cuál mo-delo era el más adecuado, descartamosel aprendizaje supervisado por variasrazones, la primera de ellas es porquees un modelo de aprendizaje fuera delínea (off-line) en el que los sistemasson entrenados para luego ponerlos enla situación que deben enfrentar. Estemodelo no permite evaluar la apariciónespontánea de un comportamiento es-pecífico no entrenado, para el caso lacooperación, por lo que bajo estos mo-delos las explicaciones seríantautológicas. Así, si nuestro interésfuera evaluar la emergencia espontá-nea, del comportamiento de coopera-ción bajo un modelo de aprendizajesupervisado, no podríamos decir quela aparición de este comportamientoes una emergencia espontánea puestoque el agente habría sido entrenadointencionalmente para ser cooperador.Necesitábamos, por tanto, un modelode aprendizaje en línea, en el que lasrespuestas del individuo dependierandirectamente de la situación que de-ben enfrentar sin un entrenamiento

previo que precondicionara sus res-puestas. Dadas estas condiciones, lamejor elección es el modelo de AR, quepresenta un proceso de aprendizaje enlínea que responde adaptándose direc-tamente a las contingencias del am-biente; además, curiosamente es unmodelo que utiliza la misma termino-logía del Análisis Experimental, por loque su adaptación resultó más fácil delo esperado.

El modelo de AR posee unas ca-racterísticas distintas a las yamencionadas: aunque son modelosconexionistas, no se basan en el com-portamiento neuronal, por lo que suselementos y la lógica dentro del mo-delo difieren significativamente. Losmodelos de AR se caracterizan porquela unidad mínima de procesamientose denomina �agente� (Sutton &Barton, 1998), el cual emite una se-rie de acciones. Dicho agente es in-troducido en un ambiente queresponde ante sus acciones cambian-do su configuración. Cada configura-ción se denomina �estado�, que es larespuesta del ambiente ante las ac-ciones del agente. El objetivo del agen-te es alcanzar la máxima recompensaposible y para lograrlo debe, a travésde la interacción con el ambiente,identificar cuál o cuáles son las accio-nes que le ofrecen los mejores rendi-mientos; para esto cuenta con unafunción matemática que le permiteestimar el valor de cada acción con elfin de poder compararlas y elegir la quele permita maximizar su ganancia. Eneste proceso de interacción agente-ambiente entran en juego varios ele-

Page 9: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 37

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

mentos adicionales: se puede inducircierta inclinación hacia alguna acciónespecífica e incluso se podría generaren el agente un factor emocional quele facilite u obstaculice el análisis queel agente hace de sus acciones. Aeste elemento se le denomina �políti-ca� (Sutton et al., 1998).

Una vez se han definido los elemen-tos del modelo, el siguiente paso esidentificar claramente los componen-tes del problema para poder traducir-los en los términos de los elementosdel modelo. En el dilema del prisioneroiterado podemos considerar a cada unode los sospechosos como agentes. Lasacciones que tales agentes pueden rea-lizar son delatar o encubrir y cada unade éstas se convierte en el estado delotro agente, de tal manera que los es-tados del ambiente son haber sido de-latado o haber sido encubierto.

En el problema del dilema del pri-sionero, el resultado de la elección decada agente da lugar a una recompen-sa, situación que se ajusta perfecta-mente al modelo de AR que dependetanto de la elección que ha hecho elsospechoso como de la elección quehizo su compañero. Generalmente, lasrecompensas que se otorgan guardanuna relación (Axelrod, R, 1984) en laque la elección de delatar obtiene ma-yores recompensas que la elección deencubrir; sin embargo, esto está con-dicionado a la elección que haya reali-zado su compañero.

En esta investigación se tuvieronen cuenta los valores de recompensadeterminados por Axelrod (1984) men-cionados en la parte inicial del artícu-

lo, en los que se puede ver que el agen-te al tomar la acción de encubrir en-contrándose en un estado de delatado,sería retroalimentado con un puntajede 0; la segunda forma de retroalimen-tación otorgaría un puntaje de 1 si tan-to la acción como el estado fuerandelatar, a diferencia del caso en el queel agente tomara la acción de delatar yfuera encubierto (caso en el que reci-biría 5); para completar las alternati-vas de recompensas, si la acción y elestado se encuentran en la alternati-va de encubrir, se retroalimentaría conun 3.

El último elemento necesario a tra-ducir es la política, que podría represen-tar alguna inclinación de lossospechosos por delatar o por encubrir,es decir, por una inclinación a ser co-operador o desertor. Dicha inclinaciónpodría representar algo de la historia devida de estos sospechosos o algún fac-tor emocional que los induzca haciaestos comportamientos. En la presenteinvestigación se decidió no incluir lapolítica debido a que si el objetivo eraobservar si la conducta cooperativa semanifestaba, incluirla hubiese provo-cado que termináramos induciendo larespuesta que esperábamos encontrar.

Una vez se tiene claridad sobre loselementos del problema descritos entérminos del modelo, el siguiente pasoes interrelacionarlos a través de lafunción de valor (Vx). Dicha funciónestablece la relación que hay entrelas acciones, los estados, las re-compensas y la política; se define como

(Sutton et al., 1998),

donde es la probabilidad de que al

Vx = ∑i P ai Rai

ss�

ss�

P aiss�

Page 10: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.38

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

realizar la acción ai, encontrándose en

el estado se pase al estado s� y esla recompensa que alcanza al realizarla acción a

i, encontrándose en el es-

tado s y quedando en el estado s�. Esnecesario aclarar que a esta fórmulale hemos suprimido el términoγ vπ(s�) que corresponde a la política,que como hemos anotado antes no fuetenida en cuenta. Como se puede veren la fórmula, el valor de una accióndepende directamente de la experien-cia que el agente haya obtenido conésta, en términos de la cantidad deveces que ha tomado dicha decisión ylas consecuencias que le ha acarrea-do.

Lo anterior puede ejemplificarsede una manera más sencilla si consi-deramos a los �Agentes� como dos or-ganismos electrónicos que poseen unrepertorio de comportamientos bas-tante sencillo: sólo saben hacer doscosas, encubrir o delatar. Estos orga-nismos son puestos en un ambienteen el cual recibirán una recompensapor sus acciones; dichas acciones tie-nen además un efecto sobre la recom-pensa que su compañero recibirá,siguiendo los valores que generalmen-te se utilizan en el DP. Estos organis-mos poseen una motivación que losmotiva a alcanzar la máxima recom-pensa posible; para ello utilizan suexperiencia anterior, que es represen-tada por la cantidad de recompensaque obtuvieron cuando tomaron unadeterminada decisión. Este aspecto escontrolado por el término de lafunción de valor que le indica al orga-nismo cuánta recompensa ha obteni-

Rai

ss�

Rai

ss�

do al tomar cada una de las dos posi-bles decisiones. Adicionalmente, elorganismo también tiene informaciónsobre el comportamiento de su com-pañero y conoce cuál es la probabili-dad de que él tome una determinadadecisión; esto está consignado en eltérmino . Sin embargo, es necesa-rio aclarar que, aunque las decisionesde cada organismo influenciaban larecompensa que alcanzaba su compa-ñero, ninguno de los dos organismostenía conocimiento de la presencia delotro; para ellos no había otro compa-ñero, sólo había un ambiente con elque interactuaban.

Aparte de todos estos elementos eranecesario incluir uno adicional quedetermina la forma como el organis-mo toma sus decisiones y que nueva-mente es necesario contextualizar parapoder explicarlo. Imaginemos a los dosorganismos en el momento en que sonenfrentados con el ambiente, ningunode ellos sabe cuál es la decisión quemás recompensa le puede ofrecer, nisiquiera conocen cuánto recibirán concada decisión que tomen. En este mo-mento los organismos tienen dos op-ciones: o dedican tiempo a conocer suambiente, o se aferran a una alterna-tiva de decisión que aparentemente lesofrezca una buena recompensa. Esteconflicto se denomina el dilema entreexploración y explotación.

Debido a la naturaleza �en línea�de este tipo de modelos en los que ge-neralmente no hay una etapa de en-trenamiento o adaptación previa a lasituación experimental, el agente uorganismo se enfrenta a su ambiente

P ai

ss�

Page 11: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 39

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

sin conocerlo y debe dedicar algúntiempo a esta tarea; sin embargo, debesaber administrar muy bien su tiem-po, dado que la meta es lograr la máxi-ma recompensa posible en un periodode tiempo limitado, para garantizar queno sólo va a explorar, sino que lograrátambién explotar alguna o algunas delas alternativas que ha encontradocomo las �mejores� o las que mejor ren-dimiento le ofrecen. Esta dicotomíaexploración-explotación es uno de loselementos que consideramos pri-mordiales dentro de la presente in-vestigación y es el único valor quemanipularemos, por lo que puede con-siderarse como la variable indepen-diente; la intención es evaluar su efectosobre las decisiones que tomen losagentes y las consecuencias que éstasles proporcionen, es decir, nuestrasvariables dependientes fueron el pro-medio de recompensas alcanzadas y elnúmero de veces que fue elegida cadaacción.

SUJETOS

A partir de las características del AR,los sujetos utilizados en la investiga-ción fueron dos �agentes electrónicos�.Ellos tenían la capacidad de elegir en-tre delatar y encubrir evaluando sudecisión a partir de la función de valordescrita anteriormente.

INSTRUMENTOS

Se utilizó un programa de computado-ra desarrollado con Borland Delphi © enel lenguaje orientado a objetos ObjectPascal ©, ya que es un ambiente de

desarrollo fácil que permite generaraplicaciones para sistemas operativosWin322 .

PROCEDIMIENTO

Ya definida la manera como sería mo-delado el DP a través del AR, nos dedi-camos a la implementación delmodelo (lo que generalmente se de-nomina �correr� el programa). Estaetapa involucró la precisión de algu-nos aspectos que no son lo suficiente-mente claros en los libros, y queconsideramos uno de los principalesaportes del presente artículo por cuan-to es una orientación de la maneracomo se deben interpretar algunos delos aspectos más importantes a la horade �correr� el programa.

El primero de tales aspectos es laintegración de la fórmula matemáticadel valor con la del concepto de explo-ración-explotación, pues se debe te-ner en cuenta que la fórmula del valorarroja una información que indica cuáles la acción que más valor le ofrece alagente y la probabilidad de seleccio-narla, que debería ser más alta si estáen un periodo de explotación que si seencuentra en un periodo de explora-ción. Aquí es importante recalcar queconsideramos que el comportamientode los agentes u organismos no podíaser determinista, por lo que era ne-cesario incluir algún mecanismoque evaluara el resultado de la fun-

2 Son todas aquellas aplicaciones que hacen usode la memoria en bloques de 32 bits, y quecorren en Microsoft Windows 95 © o versionesposteriores.

Page 12: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.40

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

ción de valor otorgándole un compo-nente estocástico al comportamientode los agentes.

Interpretando la explotación comouna probabilidad, decidimos definirlacomo una alta probabilidad de seleccio-nar la acción que más valor ofrece;específicamente, si este valor es alto,el agente se encuentra en una etapade explotación en la que la mayoría delas veces optará por la alternativa quemás recompensa le ofrece, lo que ge-neralmente implica que el agente sededique a realizar una sola acción. Sieste porcentaje es bajo, el agente seencuentra en un periodo de explora-ción en el que la mayoría de las vecesoptará por la alternativa que le ofrecemenor recompensa, para lograr de estamanera un conocimiento más ampliode lo que sucede en su entorno.

Para representar esto se utiliza unafórmula matemática que compara elporcentaje de explotación con el valorresultante de la generación de un nú-mero aleatorio con distribución unifor-me que oscile entre 0 y 1; si estenúmero es inferior al porcentaje deexplotación, el agente realizará la ac-ción que más recompensa le ofrece, delo contrario elegirá la acción opuesta.

Lo más interesante de la probabili-dad de explotación es que se puedeequiparar con la motivación, de talmanera que cuando los organismos seencuentran en una explotación baja,podemos afirmar que son arriesgados;esto implicaría que el organismo es-taría desechando la opción que másrecompensa le otorga a corto plazo enbúsqueda de otras alternativas. Por el

contrario, cuando tienen un por-centaje de explotación alto se pue-de considerar que son organismosambiciosos; esto quiere decir que op-tan siempre por la alternativa que lesofrezca la mejor recompensa a cortoplazo.

A partir de todos estos elementosse generaron los primeros resultados;en esta etapa todo se hizo a lápiz ypapel, con lo que se buscaba probar laefectividad de las fórmulas antes deimplementarlas como parte de un pro-grama de computador; a partir de es-tos resultados se diseñó la primeraversión del programa en la que se te-nían en cuenta todos los factores an-teriormente descritos.

Sin embargo, ésta no fue la únicaversión que se realizó del programa,ya que a partir de los resultados en-contrados en la primera, se decidióincorporar un nuevo elemento que per-mitiera que el nivel de explotación va-riara con el tiempo; a este elemento lodenominamos Explotación Dinámica(ED), en contraste con el valor de Ex-plotación Estática (EE) manejado en laprimera versión. La ED consiste enrepresentar la explotación a través deuna función sigmoide de fórmula

3 Esta fórmula es una adaptación de la funcióncaracterística de un ítem que se describe en(Herrera, Sánchez y Jimenez, 2001. p. 319)

donde Pi (θ) representa el nivel de ex-

plotación en el momento i, li es el mí-

Pi (θ)=li+

ls i=1,2,3....,n3

, l+ea(θ-b

i)

Page 13: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 41

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

nimo nivel de explotación que tendrá

el agente a lo largo de todos los ensa-

yos, ls es el máximo nivel de explota-

ción que alcanzará el agente durante

todos los ensayos, a es una variable

que determina qué tan suave será el

cambio en el nivel de explotación en

el transcurso de la totalidad de los en-

sayos, e es la base de los algoritmos

neperianos y tiene un valor aproxima-

do de 2.71 y, por último, está b, que

es la variable que determina qué tan

rápido pasa el agente de un nivel de

exploración a un nivel de explotación.

Primera versión

Su diseño busca ser lo más versátilposible, permitiéndole al usuarioconfigurar todas las variables que in-

tervienen en el dilema del prisione-ro: las condiciones iniciales, el porcen-taje de explotación y el número deiteraciones que ocurrirán en un jue-go. Adicionalmente, para poder correrla aplicación, es necesario configurarun valor denominado �semilla�, que de-termina la condición inicial a partirde la cual se generaran los númerosseudoaleatorios, esto es fundamentalpara garantizar que cualquier juegopueda ser replicado.

La aplicación genera los resultadosen un formato gráfico y también en unonumérico con el fin de facilitar su in-terpretación, en la figura 2 se mues-tra un ejemplo de dichos resultados, enel que se observa que el agente 1 al-canza una recompensa mucho mayorque la que alcanza el agente 2, par-

FIGURA 2. Resultados de un juego de 200 iteraciones con las siguientescondiciones iniciales: el agente 1 comenzó desde una posición de encubrir, lomismo que el agente 2; EEA = 0.9 y semilla de números aleatorios = 846.

Page 14: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.42

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

tiendo de la misma condición inicial.La línea más oscura de la gráfica re-presenta el comportamiento del agen-te 1 y la línea más clara elcomportamiento del agente 2. Las líneastoman el valor de uno (1) cuando el res-pectivo agente toma la decisión de en-cubrir, y 0 en el caso contrario. La líneacontinua que cruza por encima de lasotras líneas representa el Porcentaje deExplotación, que para este caso es Es-tático, por lo que se observa una líneacompletamente horizontal que no cam-bia con el tiempo, como sí ocurre cuan-do se configura una ED donde esta líneatoma una forma de �s� (véase Figura 3).

Con la primera versión del progra-ma se realizó un total de 456 juegos

que constaban de 200 iteraciones, esdecir, cada juego constaba de 200 si-tuaciones en las que ambos agen-tes debían tomar una decisión deencubrir o delatar. Los 456 juegos re-presentan un total de 91.200 decisio-nes por agente.

A lo largo de estos juegos se ma-nipularon 3 valores diferentes de Ex-plotación (véase tabla 1), quecorresponden a tres comportamien-tos de explotación; el primero es unaExplotación Estática Baja (EEB), en laque la probabilidad de que los agentesopten por la decisión que más valor lesproporciona en un momento determi-nado es de tan sólo el 10%; el segundoes una Explotación Estática Media

FIGURA 3. Resultados de un juego de 200 iteraciones con las siguientescondiciones iniciales: el agente 1 comenzó desde una posición de delatar y elagente 2 desde una posición de encubrir, constantes para fórmula de explotacióndinámica = 9, = 1.6, = 0.8, = 0.1 y la semilla de números aleatorios = 108.

Page 15: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 43

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

(EEM), en la que dicha probabilidadasciende al 50%, y el tercer valor esuna Explotación Estática Alta (EEA), enla que el porcentaje de explotaciónasciende al 90%. Se tomaron estostres valores por considerar que repre-sentaban tres situaciones diferentes.En la primera de ellas, las decisionesde los agentes están regidas por la bús-queda de alternativas en su ambien-te; en la segunda, se representaba unequilibrio entre estas dos alternativas(y los agentes explotaron y exploraronen la misma medida) y, en la terceraalternativa, los agentes se dedicarona explorar en la mayoría de las oca-siones.

Cada grupo de 152 juegos estabadividido en 4 subgrupos que se rela-cionaban con las decisiones inicialesde cada agente. Estas decisiones ini-ciales representan un factor muy im-portante que puede influir en elcomportamiento del agente a lo largode las iteraciones. Debido a que losagentes no cuentan con ninguna in-formación para tomar la decisión ini-cial, se decidió incluirla dentro de lasvariables que se deben especificar enla configuración inicial de cada jue-

go, de tal manera que le informe a laaplicación cuál es la decisión inicialde cada agente. Dado que las posiblescombinaciones de decisiones que pue-den tomar los agentes son sólo 4, sedividieron los 152 juegos en 4 gruposde 38; en los primeros, ambos agentescomenzaban con una decisión inicialde encubrir, en el segundo, ambosagentes tomaban como decisión inicialdelatar, en el tercer grupo, de juegosel agente 1 empezaba delatando mien-tras que el agente 2 encubriendo, y enel cuarto grupo, el agente 1 comenza-ba encubriendo y el 2 delatando.

Segunda versión

Esta aplicación mantuvo las mismascaracterísticas de la inicial; adicio-nalmente permitía configurar unaED. Con esta versión se realizaron473 juegos, cada uno de ellos de 200iteraciones que representan 96.600decisiones tomadas por cada agente.Al igual que en la primera versión, semanipularon tres valores diferentes deexplotación a través de la utilizaciónde tres valores diferentes para el tér-mino b. Dichos valores se resumen en

TABLA 1. Diferentes valores de EE quese uti l izaron para generar losresultados con la primera versión delprograma

TABLA 2. Diferentes valores del términob de la ED que se utilizaron paragenerar los resultados con la segundaversión del programa

Valor de EE b No. de juegos

3.5 162

6 156

9 152

Valor de EE No. de juegos

0.1 152

0.5 152

0.9 152

Page 16: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.44

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

la tabla 2 y corresponden a tres varia-ciones de la ED; en el primero de ellosambos agentes comenzaban exploran-do su entorno durante unos pocos en-sayos y rápidamente empezaban aexplotar, por lo que lo denominamosExplotación Dinámica Rápida (EDR); conel segundo valor el proceso de explora-ción era un poco más largo y hacia lamitad de los ensayos empezaba la ex-plotación, a éste lo denominamos Explo-tación Dinámica Media (EDM); y elúltimo valor correspondía a una explo-ración bastante larga y una explotaciónmuy corta al final de las iteraciones,debido a esto lo denominamos Explota-ción Dinámica Demorada (EDD).

RESULTADOS

Una vez realizados todos los juegos seobtuvieron los siguientes resultados:los promedios de recompensas obteni-dos por ambos agentes son similaresen los valores de EEM y EEB, pero sepresentaron diferencias cuando se uti-lizó una EEA.

Se encontraron diferencias en lasdesviaciones estándar (véase tabla 3)entre los diferentes valores de la EE,es decir, resultaba una enorme disper-sión observada en el grupo EEA. Conrespecto al promedio de veces en quelos agentes decidieron encubrir, seencuentran diferencias entre distintosvalores de la EE; en los juegos EEB seobservan promedios y desviacionesmás altas de la decisión de encubrir, ydichos promedios descienden a medi-da que aumenta la EE.

El análisis gráfico de la figura 4(pág. 45) permite identificar tres tiposde comportamientos diferentes en lasrecompensas alcanzadas por los agen-tes que coinciden con los valores asig-nados a la EE. En los juegos con EEBlas recompensas alcanzadas por am-bos agentes son muy parecidas con uníndice de correlación alto (tabla 4, pág.46), lo que indica que durante este pe-ríodo las decisiones que tomaron am-bos agentes los condujo a obtenerniveles altos de recompensas simul-

TABLA 3. Resumen de los promedios y desviaciones estándar de las recompensasalcanzadas y de las veces que encubrió cada agente a partir de cada uno de losvalores de EE que se manipularon.

Agente 1 Agente 2

Promedio Desviación Promedio Desviaciónestándar estándar

EEARecompensa 420.87 230.39 383.31 204.76

Decisión de encubrir 79.40 63.72 86.95 69.43

EEMRecompensa 446.77 29.04 449.24 29.86

Decisión de encubrir 99.94 7.47 99.45 7.07

EEBRecompensa 443.91 60.08 454.05 82.84

Decisión de encubrir 108.94 29.05 106.91 24.55

Page 17: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 45

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

táneamente; en la EEM se observa unacorrelación alta y negativa que indicaque las decisiones tomadas por losagentes provocaba que cuando uno ob-tenía una recompensa alta su compa-ñero obtenía lo contrario, y viceversa;por último, en la EEA se pueden obser-var las diferencias individuales másgrandes y es posible identificar 4 com-portamientos diferentes que se rela-cionan con las condiciones iniciales.

Adicionalmente, es importanterecalcar que las condiciones inicialesno afectaron en las dos primeras con-diciones, EEB y EEM, pero se volvie-ron un factor muy importante en laEEA, debido a que el promedio de re-compensas alcanzados durante la EEAdepende de las decisiones iniciales;por ejemplo, se observó que cuandoambos agentes empiezan encubrien-

do los promedios de las recompensasson mucho más altos que cuando am-bos agentes empiezan delatando; asímismo, se puede identificar clara-mente que cuando ambos agentes par-ten de decisiones diferentes, el agenteque empieza delatando va a ganarmejores recompensas que aquel queempieza encubriendo.

SEGUNDA VERSIÓN

En general, los resultados que se ob-tuvieron variaron un poco con los ob-tenidos en la primera versión; porejemplo, se encontró que el promediode recompensas conseguido por am-bos agentes aumentaba a medidaque se demoraba la explotación, loque corresponde con el aumento delparámetro. Los promedios de recom-pensas más altos se encontraron con

FIGURA 4. Gráfica que resume el comportamiento de las recompensas alcanzadaspor los agentes a lo largo de los 473 juegos, en la que los primeros 162corresponden con una EEA, los siguientes 156 con una EEM y los últimos 155con una EEB.

Page 18: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.46

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

la EDD, así mismo, el número de vecesque los agentes decidieron encubrir fuesuperior con este tipo de explotación.Individualmente se lograron los mejoresy los peores resultados por cada ensayocuando se manejaba una EDR. Los pro-medios de recompensas y el númerode veces que encubrieron se resumenen la tabla 5 (pág. 47). También se ob-servó una relación entre los diferentesvalores de la ED y el promedio de vecesque cada agente encubrió siguiendo elmismo patrón de los resultados obteni-dos con la primera versión, es decir, amedida que aumenta el nivel de explo-tación disminuye el promedio de vecesque deciden encubrir.

El análisis gráfico de los resulta-dos arrojó algunos datos adicionales,uno de ellos es que progresivamentese pueden identificar 3 momentos di-ferentes en la gráfica (véase figura 5pág 47), además se observa lo antesmencionado con respecto a las recom-pensas. Adicionalmente se realizaroncorrelaciones entre las recompensasalcanzadas por los agentes en los di-ferentes juegos, y se encontraron co-rrelaciones negativas para los juegoscon EDR y EDM, lo que significa que

durante estos juegos, cuando uno delos dos agentes alcanzaba una recom-pensa alta, su compañero obtenía unarecompensa pequeña y viceversa; porel contrario, en los juegos con EDD, lascorrelaciones entre las recompensasque obtuvieron los agentes fueron po-sitivas y muy altas, lo que indica quedurante este período cuando uno de losagentes lograba una recompensa alta,su compañero también lo hacía y vice-versa. Los resultados de las correlacio-nes se reportan en la tabla 6 (pág 47).

Comparando los resultados obteni-dos con la EE y la ED, se puede obser-var que en general la EE ofrecemejores recompensas en promedioque la ED, sólo equiparables cuandose utiliza una EDD. Comparando cadavalor de explotación se puede obser-var que los valores de explotación másalta (EEA y EDR) corresponden a losvalores de recompensas más altos in-dividualmente, pero más bajos en pro-medio con índices de correlaciónaltos y negativos; con respecto a losvalores de explotación media (EEM yEDM), aunque presentaron un com-portamiento similar, son muy dife-rentes en la dispersión de los datos(resultaron menos dispersos los deEEM). En cuanto a los índices de co-rrelación, también son altos y nega-tivos. Finalmente, los valores deexplotación más baja coinciden conpromedios altos y correlaciones altasy positivas.

DISCUSIÓN

El objetivo del presente artículo de in-vestigación fue el de simular el com-

TABLA 4. Resumen de lascorrelaciones entre las recompensasque alcanzaron los agentes durantecada uno de los tres períodos de EE

Período Correlación

EEB -0.4335

EEM -0.7541

EED 0.9530

Page 19: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 47

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

Período Correlación

EDR - 0.5258

EDM - 0.5658

EDD 0.6192

Tabla 6. Resumen de las correlacionesentre las recompensas que alcanzaronlos agentes durante cada uno de lostres períodos de ED

FIGURA 5. Gráfica que resume el comportamiento de las recompensas alcanzadaspor los agentes a lo largo de los 473 juegos. Los primeros 162 corresponden conuna EDR, los siguientes 156 con una EDM y los últimos 155 con una EDD.

Agente 1 Agente 2

Promedio Desviación Promedio Desviaciónestándar estándar

EDR Recompensa 344.02 130.21 339.44 125.97

Decisión de encubrir 55.87 30.78 56.73 32.01

EDM Recompensa 390.67 80.84 404.31 97.52

Decisión de encubrir 83.15 25.15 80.5 20.31

EDD Recompensa 441.35 54.2571 454.20 74.54

Decisión de encubrir 107.451 23.90 104.99 18.57

TABLA 5. Resumen de los promedios de recompensas alcanzados por los agentesa partir de cada uno de los valores de Explotación Dinámica que se manipularon.

Page 20: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.48

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

portamiento de dos organismos so-metidos al DP en búsqueda de laemergencia del comportamiento co-operativo. Lo que se pudo observar me-diante la manipulación exclusiva de lavariable del porcentaje de explotaciónfue que ambos organismos eligieronencubrir de manera consistente, gene-rando de esta manera las recompen-sas en promedio más altas entre todaslas alternativas. Esta variable corres-ponde a un elemento propio de losagentes y, como lo mencionamos, sepodría relacionar con un factormotivacional, lo que nos permitevisualizar que la motivación juega unpapel fundamental en la manera comoresponden los organismos a situacio-nes en las que se ven enfrentados aun dilema (Rachlin, 2002), e inclusoen la manera como los organismosdeciden cooperar o desertar.

Para poder interpretar si estos re-sultados se pueden considerar argu-mentos que apoyen la emergencia delcomportamiento cooperador es nece-sario evaluar si una constante decisiónde encubrir se puede asumir como in-dicio suficiente para poder afirmar queel comportamiento está determinadopor un interés de cooperación. Un pun-to de partida para este análisis es laevaluación de uno de los pormenoresde la simulación, relacionado con elhecho de que ninguno de los dos agen-tes tenía conocimiento de la presen-cia del otro ni de las consecuenciasque sus actos tenían sobre las recom-pensas que recibía el otro agente. Es-tas condiciones permiten afirmar quela conducta observada en los agentes

no puede deberse a lo que se denomi-na cooperación, sino que debe ser pro-ducto de otras condiciones, debido aque la cooperación es un comporta-miento que involucra la interacciónde varios organismos en busca de unbeneficio compartido.

En varias investigaciones con ani-males que fueron sometidos al dilemadel prisionero (Green, et al., 1995 yStephens, McLinn & Steven, 2003) sepuede observar que en algunas oca-siones ellos también eligen simultánea-mente la alternativa de encubrir, lo quenuevamente plantea el interrogante:¿se puede considerar este comporta-miento como un comportamiento decooperación? Nosotros consideramosque esta pregunta tiene una respues-ta sencilla: es posible siempre y cuan-do se garantice que ambos organismosconocen las consecuencias que susactos tienen sobre las recompensasque obtendrán los otros. Si se ha detrabajar con animales, es necesariovislumbrar de manera clara unainteracción social que no dé lugar ainferencias o interpretaciones de laconducta de los organismos, para quede esta forma la conducta de cooperarse vea en interacciones reales entreambos organismos. Al respecto, variasinvestigaciones (Flood, Lendenmann,y Rapoport, 1983, citado por Green, etal, 1995) afirman que dado que ambosorganismos se ven, se puede afirmarque conocen dichas consecuencias.Nuevamente, esto plantea un incon-veniente: una reja a través de la cuallos organismos ven, oyen y huelen asus compañeros ¿es suficiente para

Page 21: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 49

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

afirmar lo anterior? Al respecto, todoslos autores (Green, et al., 1995 yStephens et al., 2003) tienen muy cla-ro que esto no es suficiente; sin em-bargo, no son claros los métodos queutilizan para garantizar dichainteracción. Esto queda de manifiestoen investigaciones como la de Greenet al. (1995), en la que una palomainteractuaba con un computador enuna situación del DP.

Así los animales puedan ver, oleru oír al otro organismo, difícilmente sepuede considerar esto como una ga-rantía de que el animal conoce el efec-to que sus actos tienen sobre laconducta del otro. En el ámbito en elque nos encontramos no se puede equi-parar lo que motiva a los animales ahacer lo que hacen, con lo que motivaa los seres humanos, porque de estaforma nos hallaríamos frente a unapostura antropomórfica (Bruno, 1997).Nosotros consideramos que en la pre-sente investigación no se puede hablarde la emergencia de un comportamien-to cooperativo, dado que los organis-mos no tenían conocimiento de laexistencia del otro. Esto es una con-clusión que busca cuestionar las apli-caciones del DP en contextos donde nose pueda garantizar que los organis-mos interactúen entre sí y respondanconociendo las consecuencias de losactos de su compañero y los propiossobre las recompensas obtenidas.

Sin embargo, es necesario aclararque aunque los organismos no tenganconocimiento de la existencia del otroy lo que esto implica, la situación a laque están sometidos sigue involu-

crando un dilema, ya no relacionadocon cooperar o desertar, sino con re-cibir una �buena� recompensa en unasituación en la que las contingenciasambientales siguen un patrón difícil depredecir. Por esto consideramos que laconducta de los organismos estabacontrolada por un programa de refuer-zo que determinaba cuál de las con-ductas era la que debía realizar. Alrespecto, es posible que el autocontrolfuese una de las condiciones que po-dría determinar la conducta de losagentes si lo consideráramos como unaselección deliberada de conductas delindividuo en situaciones en las queobtiene consecuencias conflictivas(Kazdin, 1996 y Skinner, 1971), que,para el caso, serían una recompensaalta a corto plazo pero en promediobaja, o una recompensa baja a cortoplazo pero en promedio alta.

Con respecto a este punto tambiénsurge un interrogante que afecta laexplicación del autocontrol: los orga-nismos desconocían la duración de losjuegos y debido a esto no tenían sufi-ciente información para evaluar si laconducta de preferir la decisión demenor recompensa, efectivamente lesofrecía mayores ganancias en prome-dio a largo plazo.

Por lo anterior se puede afirmarque el comportamiento observado nose ajusta a ninguno de los patronesque regularmente se encuentrancomo explicación al DP, por cuanto nose puede hablar de cooperación y tam-poco de autocontrol. Aunque hay quetener en cuenta que en la simulaciónno están contenidos todos los factores

Page 22: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Julián Tejada H. , Lina María Perilla R., Sara Victoria Serrato V., Andrés Felipe Reyes G.50

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

que comúnmente se incluyen en lasinvestigaciones del DP, los resultadosindican que las relaciones que estánplanteadas al interior del DP tienenuna solución matemática sencilla: lamejor manera de alcanzar un prome-dio alto de recompensas es encubrir;esta relación determina el comporta-miento de los organismos en ausenciade cualquier variable adicional; esdecir, cuando no se tienen en cuen-ta factores que faciliten el engaño o latrampa, los organismos optarán nece-sariamente por un comportamiento deencubrir para poder alcanzar la ma-yor recompensa posible.

Finalmente, es importante recal-car la pertinencia de los modeloscomputacionales en la investigacióndel comportamiento, debido a que sonmodelos que permiten simularlo bajocondiciones de absoluto control, y quea la vez permiten investigaciones enlas que se puede hacer una manipula-ción minuciosa de todas las variablesque intervienen en un problema, faci-litando que el investigador obtengaresultados de forma rápida y econó-mica. Aunque consideramos que estetipo de investigación no reemplaza lainvestigación básica con animales opersonas, sí puede servir de �filtro� quedecante las preguntas que guían di-chas investigaciones y que permita asu vez generar nuevos interrogantes.

REFERENCIAS

Axelrod, R. (1984). The Evolution of Cooperation.New York: Basic Books.

Barrios, A. (s.f.) Los dilemas morales en la clasede ética. En Sociedad Andaluza de Educa-

ción Matemática. Recuperado el 28 de no-viembre de 2003, de http://thales.cica.es/rd/Recursos/rd98/Filosofia/03/filosofia-03.html#uno

Beck, R. (1990). Motivation: Theories and principles.3Ed. New Jersey: Prentice Hall.

Brewer, M. (1989) �Ambivalent sociality: Thehuman condition�. En: Journal of Behavioraland Brain Sciences, 12(4), p. 699

Bruno, F. J. (1997). Diccionario de términos psico-lógicos fundamentales. Barcelona:Paidós Studio.

Burgos, J. (1999a). Cooperation as an EmergentProperty of Selection by Reinforcement inArtificial Neural Networks. SQAB. Recupe-rado el 5 de noviembre de 2003 en http://sqab.psychology.org/abstracts-1999.html.

Burgos, J. (1999b). Economistas y Psicólogos en-cuentran nichos comunes. El Ucabista. Re-cuperado el 5 de noviembre de 2003 enht t tp ://www.ucab .edu .ve/prensa/ucabista/jul99/p05.htm.

Burgos, J. (2001). �A neural-network interpretationof selection in learning and behaviour�. En:Journal of Behavioral and Brain Sciences,24(3), pp. 531-533.

Caporael, L., Dawes, R., Orbell, J., Van de Kragt,A. (1989). �Selfishness Examined:Cooperation in the Absence of EgoisticIncentives�. En: Behavioral and BrainSciences.12, pp. 683-739.

Cheng, E. (1994). �A neural network modelof cortical information processing inschizophrenia. I: Interaction betweenbiological and social factors in symptomformation�. En: Canadian Journal ofPsychiatry, 39, pp. 362-367.

Green, L., Price, P. & Hamburguer, M. (1995).�Prisoner�s Dilemma and the Pigeon: Con-trol by Immediate Consequences�. En:Journal of the Experimental Analysis ofBehavior, 64, pp. 1-17.

Hargreaves, S. & Varoufakis, Y. (1996) Game Theory:A critical introduction. New Fetter Lane:Routledge.

Haykin, S. (1999). Neural Networks; AComprehensive Foundation. New Jersey:Pretince Hall.

Herrera, A., Sánchez, N., & Jiménez, H. (2001).�De la Teoría Clásica de los Tests a la Teoríade Respuesta al Ítem�. En: Aula Psicológica,3, pp. 293-332.

Page 23: SIMULACIÓN DEL DILEMA DEL PRISIONERO A PARTIR ...(primordiales para la justificación del presente trabajo); por esta razón, se seleccionó un problema ampliamente investigado, al

Simulación del dilema del prisionero 51

Suma Psicológica, Vol. 11, No. 1: 29-52, mar. 2004, Bogotá (Col.)

Kazdin, A. (1996). Modificación de la conducta ysus aplicaciones prácticas. México D. F: Ma-nual Moderno.

Lin, C. T. & Lee, C. S. (1996). Neural Fuzzy Systems.A Neuro-Fuzzy Synergism to IntelligentSystems. New Jersey: Pretince Hall.

Lloyd, A. (1995). Computing bouts of the prisoner�sdilemma. Scientific American, 272 (6).

McCulloch, W. & Pitts, W. (1943). �A logicalcalculus of ideas immanent in nervousactivity�. En: Bulletin on MathematicalBiophysics, 5, pp. 115-133.

Merkle, D. & Middeendorf, M. (2002). �Modelingthe Dynamics of Ant Colony Optimization�.En: Evolutionary Computation, 10(3), pp.235-262.

O�Reilly, R. & Munakata, Y. (2000). ComputationalExplorations in Cognitive Neuroscience.Understanding the Mind by Simulating theBrain. Cambridge: Bradford Book The MITPress.

O�Rourke, B. M. (1999). Analyzing Financial NeuralNetworks Performance: Applying FuzzyClustering and Tree Classification. PC AI, pp.37-40.

Pack, L., Littman, M. & Moore, A. (1996).�Reinforcement learning: A survey�. En:Journal of Artificial Intelligence Research.

Price, R. K., Spitznagel, E. L., Downey, T. J., Risk,N. K. & El-Ghazzawy, O. G. (2000). ApplyingArtificial Neural Network Models to ClinicalDecision Making. Psychological Assessment,12(1), pp. 40-51.

Rachlin, H. (2000). The Science of Self-Control.Cambridge: Harvard University Press.

Rachlin, H. (2002). Altruism and selfishness.Behavioral and Brain Sciences. 25(2), pp.239-296.

Reyes, R. (2003) Dilema del Prisionero. En: Diccio-nario Crítico de las Ciencias Sociales. Recu-perado el 5 de diciembre de 2003 en http://www.ucm.es/info/eurotheo/diccionario/P/prisionero_dilema.htm.

Rivals, I. (1995). Modélisation et commande deprocessus par réseaux de neurones;application au pilotaje d� un véhiculeautonome. Université Paris 6.

Rosen, J. & Haaga, D. (1998). �FacilitatingCooperation in a Social Dilemma: APersuasion Approach�. En: Journal ofPsychology, 132(2).

Rumelhart, D. E., McClelland, J. L. & el grupo PDP(Eds.). (1992). Introducción al ProcesamientoDistribuido en Paralelo. Madrid: Alianza.

Russel, S. & Norving, P. (1995). ArtificialIntelligence. A Morden Approach. New Jersey:Prentice Hall.

Shafir, E. & Tversky, A. (1992). �Thinking ThroughUncertainty: Nonconsequential Reasoningand Choice�. En: Cognitive Psychology, 24,pp. 449-474.

Skinner, B. F. (1971). Ciencia y conducta humana.Barcelona: Fontanella.

Stephens, D. W., McLinn, C. M. & Steven, J. R.(2002) Discounting and Reciprocity in anIterated Prisoner´s Dilemma. Science, 298(5601), pp. 2216-2219.

Sutton, R. & Barton, A. (1998). ReinforcementLearning. Cambridge: Bradford Book. TheMIT Press.

Zhu, X. & Simon, H.A. (1987). �Learningmathematics from examples and by doing�.En: Cognition and Instruction, 4, pp. 137-166.

Recibido el 16 de enero de 2004 y aceptado el 30 deenero de 2004