Diccionario Crítico de Ciencias Sociales

Román Reyes (Dir): Diccionario Crítico de Ciencias Sociales

Prisionero (Dilema del)

Paula Casal

Keele University, UK

El "Dilema del Prisionero" es una historia que suele atribuirse a A. W. Tucker (1), que da nombre al más conocido de los problemas que estudia la Teoría de Juegos. Esta teoría es una rama floreciente de la Teoría de la Elección Racional que ha resultado ser de gran utilidad no sólo en Economía y en Biología Evolutiva, sino también en Filosofía y Teoría Política y Social.

La mencionada historia es la siguiente. Dos prisioneros incomunicados en celdas individuales han cometido dos crímenes, uno leve y otro grave. Existen pruebas suficientes para que les condenen por el primero, pero no por el segundo, a menos que alguno confiese haberlo cometido. El fiscal visita a uno de los prisioneros y le dice: "Tengo una buena noticia y una mala noticia para usted. La buena noticia es que si ninguno de ustedes confiesa su grave crimen, sólo podremos condenarles a dos años por su primer crimen y si usted confiesa, yo convenceré al jurado de que es usted un hombre arrepentido y de que el perverso es su compañero, de modo que usted quedaría libre en un año y él permanecería en prisión 10 años. La mala noticia es que voy a hacerle la misma oferta a su compañero". "¿Y que ocurriría si ambos confesásemos?", pregunta el prisionero. "Entonces no tendré razón para beneficiar a ninguno de ustedes, dejaré que la justicia tome su curso y, como el crimen es grave, estimo que les condenarán al menos a 8 años". Así, los prisioneros se encuentran ante el siguiente dilema:

Cada uno piensa que sólo pueden pasar dos cosas: que el otro confiese o que no confiese. "Si confiesa, es mejor que yo también lo haga, porque de lo contrario me quedaré 10 años en la carcel. Si no confiesa y yo sí, entonces podré beneficiarme de la oferta del fiscal y quedaré libre en un año". La conclusión es que haga lo que haga el otro, lo mejor es confesar. Ambos razonan de igual modo, con lo cual ambos confiesan y se quedan en la cárcel mucho más tiempo del que les habría tocado, si hubiesen cooperado entre sí y ninguno de los dos hubiese confesado.

Este es un juego de dos personas, pero podría darse entre n personas, por ejemplo, en el caso de una huelga, que puede entenderse como un bien público (* tragedia de los comunes). Cada trabajador puede pensar: "o bien hay bastantes trabajadores que vayan a la huelga y consiguen el objetivo de esta acción colectiva (por ejemplo, un ascenso salarial, una reducción de la jornada laboral o una mejora en las condiciones de trabajo), o bien esto no ocurre. En el primer caso, de todas formas voy a beneficiarme del éxito de la huelga, y si me quedo, puedo, además, seguir cobrando y quizá mejore mis relaciones con mis superiores. Y si los demás no van a la huelga, lo mejor es que yo tampoco vaya, porque estaré pagando en vano los costes de mi contribución a esta acción colectiva que va a fracasar".

El problema es que lo individualmente racional conduce al fracaso colectivo. Lo mismo puede ocurrir en el caso de muchas otras acciones colectivas (manifestaciones, revoluciones, guerras, votaciones, etc.) y en muchos otros contextos, por lo que este juego ha resultado útil en una gama muy amplia y variada de investigaciones en Ciencias Sociales.

Este y otro juegos pueden caracterizarse por el orden de las alternativas siguientes.

C = la Cooperación universal: todos cooperan
E = el Egoismo universal: nadie coopera
G = el Gorrón: menos yo, todos cooperan
P = el Primo: sólo coopero yo

Dilema del Prisionero (DP): GCEP
Juego de la Seguridad (JS): CGEP
Imperativo Categórico (IC): CPEG
Juego del Gallina (JG): GCPG

En el DP, el orden es GCEP. Ello es especialmente claro en la historia original, en la que los dos prisioneros están incomunicados. No obstante, si les hubiesen permitido hablar, la historia podría ser la misma: "Si me dice que no confesará, lo mejor es que yo confiese; y si me dice que confesará, lo mejor es que yo también lo haga". Además, puede que el otro mienta o cambie de idea.

Ahora bien, la cuestión sería distinta si entre los prisioneros hubiese amistad y mutua confianza o, en el caso general, si lo que cada miembro del grupo desea en primer lugar es que se obtenga el bien público y no obtener la mayor ganancia para sí. En ese caso, la situación ya no sería la del DP, sino la de un Juego de la Seguridad (CGEP). Muchas veces, como ha señalado Amartya Sen, lo que ocurre no es que uno quiera explotar a los demás, sino no perder doblemente haciendo el primo; y por ello, uno está dispuesto a cooperar, siempre que los demás también lo hagan. Por ejemplo, es posible que a ningún productor le guste utilizar los crueles e insanos métodos que se emplean hoy en las granjas-factoría; pero que, sometidos a la presión del mercado, se vean obligados a reducir sus costes confinando a los animales en espacios cada vez menores y tratándoles de formas cada vez más repugnantes. En un mercado cerrado o con barreras proteccionistas, el gobierno podría prohibir ciertas prácticas o emplear impuestos o subvenciones selectivas que pongan fin a esa dinámica; pero si tal país tiene que competir con otros, el gobierno tenderá a apoyar a los más despiadados, que son los que prometen un mayor éxito competitivo en el mercado internacional. Así, los métodos pueden llegar a ser tan escalofriantes que horrorizarían a la mayoría de los consumidores que estén informados, pero también estos tendrán que comprar lo que hay, si no pueden prescindir de todo producto animal.

En el JS, los individuos están dispuestos a cooperar (por ejemplo, a pagar cierto impuesto) con la condición de que los demás también lo hagan. Por ello, cuando falta información y los participantes no saben qué decidirán los demás, pueden terminar comportandose como en un DP. Al no tener garantías, prefieren jugar sobre seguro, de ahí el nombre del juego (2). Si los individuos estuviesen dispuestos a cooperar, independientemente de lo que hiciesen los demás, ya no se trataría de un JS, sino de lo que Elster llama un Juego del Imperativo Categórico (CPEG).

Al margen de si ésta es una caracterización adecuada de la ética kantiana, cosa que habría que discutir, desde el punto de vista social, Elster piensa que ésta ni es frecuente ni conveniente. Por un lado, arguye que la historia de la clase obrera muestra que la conducta cooperativa suele ser condicional; y por otro, que los actos heróicos individuales, no secundados, pueden ser contraproducentes, al dar pie a represalias colectivas. "Esto prueba", concluye, "que la ética individualista kantiana no es adecuada para la acción colectiva" (3). Aquí caben al menos cuatro breves observaciones. Por un lado, la cooperación incondicional sólo es contraproducente en ciertas circunstancias; y lo que es más infrecuente no es tanto la cooperación incondicional (de las madres o los ecologistas, por poner dos ejemplos cotidianos), como el preferir E a G (por ejemplo, preferir que todos usen CFCs a ser el único que los usa). Por otro lado, la ética consecuencialista tampoco es inmune a los problemas de acción colectiva (VEASE TRAGEDIA) y el mismo Elster mantiene otras veces posiciones anti-consecuencialistas basadas en la imposibilidad de predecir en Ciencias Sociales (4).

Por último, el Juego del Gallina (GCPG) debe su nombre (the chicken game) a una especie de juego ritual que a veces se ve en las películas sobre bandas juveniles norteamericanas. Los aspirantes a líderes compiten en sus coches en una peligrosa carrera hacia un precipicio. Ambos quieren que sea el otro el que decelere, porque ninguno quiere quedar como un gallina; de modo que ambos continúan acelerando, y el riesgo aumenta. Pero según aumenta el riesgo, quedar como un gallina empieza a no parecer tan malo como correr un riesgo altísimo y creciente de estrellarse. Algo parecido puede ocurrir entre dos compañías de autobuses que recorren el mismo trayecto y se adelantan mutuamente tratando de llegar antes a cada parada para llevarse a los pasajeros que están esperando y ofrecerles mayor rapidez, aumentando así el riesgo de accidentes. Otro ejemplo es el de la inversión en innovaciones tecnológicas que ahorran mano de obra. Si nadie invierte en ello, los salarios suben, por lo que resulta racional adelantarse a esta subida introduciendo tecnologías que ahorren mano de obra; pero si los demás capitalistas ya lo están haciendo, sobrarán desempleados dispuestos a aceptar bajos salarios, por lo que el capitalista individual ya no tendrá incentivos para invertir en estas tecnologías (5). No siempre es fácil distinguir un JS y un DP, pues en ambos casos la conducta no cooperativa individualmente racional es colectivamente contraproducente, como ocurre cuando la competencia entre fabricantes les lleva a gastar cada vez más en publicidad, a bajar cada vez más los precios o a arriesgar la propia ruina por arrastrar a ella a los demás. Cuando todos gritan para que se les oiga más que a otros, sólo se consigue una afonía colectiva. Si se trata de un DP, conviene no cooperar hagan lo que hagan los demás, mientras que en un JG, la decisión depende de la estrategia que elijan los demás y se tenderá a hacer lo contrario de lo que hagan éstos.

Tras los ejemplos, puede hacerse ahora una caracterización algo más técnica que permita situar mejor al DP.

(a) El DP se emplea en Ciencias Sociales para analizar conductas intencionales (orientadas a una meta) y se adopta el supuesto metodológico de que la conducta es racional y optimizadora (entre los medios disponibles se eligen los más adecuados para obtener tales metas) (6). Cuando se supone además, que cada individuo considera que los demás son tan racionales como él, son capaces de razonamientos parecidos y estarán calculando si emprender tal acción o tal otra, se habla de racionalidad estratégica, que es de la que propiamente se ocupa la Teoría de Juegos o de Decisiones Interdependientes. Cuando cada uno sólo se considera a sí mismo como variable y a los demás como constantes, se habla de racionalidad paramétrica.

(b) En un DP cada uno calcula qué es lo que pueden hacer los demás, pero termina llegando a la misma conclusión tanto si piensa que los demás harán una cosa, como si cree que harán otra. Es decir, es un juego con estrategia dominante (hay una opción que es la mejor, hagan lo que hagan los demás). Aquí la estrategia dominante es el egoismo universal, mientras que en el IC domina la cooperación. Otros juegos no tienen estrategia dominante, como el JS, en el que lo mejor es hacer lo que haga el resto.

(c) El DP tiene un solo punto de equilibrio, es decir, de un conjunto de estrategias sólo hay una que sea óptima frente a las de los otros. Como sólo tiene uno, este es la solución (conjunto de estrategias a las que convergen tácitamente los actores racionales con información perfecta). El JS, en cambio, tiene dos puntos de equilibrio. En este caso, la solución será la colectivamente óptima, el punto que todos prefieren a todos los demás, que en el JS es la cooperación.

(d) El DP tiene una solución subóptima (E). El resultado es el desastre colectivo. La cooperación universal no es individualmente estable ni individualmente accesible: todos tenderán a alejarse de ella y nadie querrá dar el primer paso para acercarse a ella. En el JS, en cambio, sí es individualmente estable aunque no individualmente accesible; mientras que en el JG, que no tiene solución, el óptimo es individualmente accesible, pero no individualmente estable.

(e) El DP es un juego de suma variable, porque no sólo la distribución de las ganancias, sino también el total a distribuir, depende de las estrategias elegidas. En los juegos de suma cero, que son los únicos que siempre tienen solución, uno gana lo mismo que pierde el otro. Son juegos de puro conflicto, mientras que los de suma variable pueden ser de pura cooperación o mixtos de cooperación y conflicto. Al DP y al JG los estudia la teoría de los juegos no cooperativos, que es la que más se utiliza en Ciencias Sociales, porque la teoría de los juegos cooperativos -útil en otros contextos, como el del análisis normativo- ya cuenta con la cooperación y no investiga cómo se origina y en qué condiciones puede surgir. No obstante, los juegos cooperativos pueden cumplir funciones explicativas, cuando la cooperación es, a su vez, explicada a partir de la no-cooperación.

Estas últimas distinciones no se incluyen en el siguiente esquema (7), al que podrían añadirse bastantes distinciones más. Por ejemplo, puede tratarse de un juego de 2-personas y de una sola vez o de n-personas que interactuán reiteradamente. El tamaño del grupo y el número de jugadas son factores a tener en cuenta cuando se aborda la cuestión de cómo evitar que un DP lleve al desastre. Por ejemplo, cuando un grupo crece, pueden aumentar los problemas de coordinación que dificulten la acción colectiva, pero también puede que el grupo, al tener más miembros, cuente con una masa crítica de individuos suficiente para que se consiga el objetivo (8).

Pues bien, ¿cómo puede evitarse que un DP lleve al desastre? La respuesta más frecuente es esta: hay que modificar las circunstancias, añadiendo un tercero (el Estado o la Ley) que imponga sanciones a los gorrones, cobre multas por destruir bienes públicos y recaude impuestos para construirlos. Esta es la forma en que suele entenderse a Hobbes. No obstante, en una sección del Leviatán (cap. 15) conocida como su "respuesta al insensato" (Reply to the Foole), Hobbes mismo sugiere otra opción que fué precisamente la que abrazó un autor de inspiración anarquista, Michael Taylor y que Robert Axelrod popularizó y desarrolló empleando un computador.

La idea básica es muy sencilla: cuando un grupo de personas interactúan en repetidas ocasiones, por ejemplo, cooperando para recoger la cosecha en una aldea, un gorrón puede engañar a algunos durante cierto tiempo, pero no engañar a todos todo el tiempo. Si el insensato se niega a cooperar con los que le han ayudado, la próxima vez lo dejarán solo y, al final, le irá peor que si hubiese cooperado. Axelrod obtuvo la versión informática de esta idea calculando el balance de costes y beneficios que obtenían, siguiendo ciertas pautas de conducta, unos individuos ficticios que interactuaban reiteradamente. A los cooperadores incondicionales, que cooperaban indiscriminadamente con cualquiera, no les iba demasiado bien, porque -aunque saliesen ganando cuando interactuaban con otros cooperadores- los gorrones les explotaban ilimitadamente. A los gorrones no les iba del todo mal, porque no tenían costes y a veces conseguían aprovecharse de alguien. Pero a los que mejor les iba era a los cooperadores condicionales que seguían la estrategia llamada C-toma y daca (C-tit for tat) consistente en cooperar la primera vez y luego hacer lo mismo que el otro ha hecho la última vez. De esta forma, si el otro no coopera, no se le permitirá que se siga saliendo con la suya, sino que la próxima vez se le castigará no cooperando; y si el otro coopera (condicional o incondicionalmente) se generará una dinámica mutuamente beneficiosa.

Al investigar las condiciones en las que la cooperación puede surgir espontánemente entre egoistas, Axelrod llegó a la conclusión de que no era necesario que los individuos fuesen racionales y entendiesen lo que se ha explicado aquí, ni que hubiese un intercambio de mensajes o confianza mutua. De hecho, C-tit for tat, la estrategia ganadora del torneo informático de DPs puede triunfar y difundirse mediante la selección natural en un proceso evolutivo, incluso en el mundo de las bacterias; y hoy los biólogos, que ven a la naturaleza más como a una economista que como a una ingeniera, están empleando estos mismos modelos.

Por otro lado, si la autoridad central, el altruismo, el lenguaje, la racionalidad, y la confianza, resultaron no ser requisitos indispensables, hay otras condiciones que sí son necesarias para que la cooperación surja, se difunda y se mantenga. Para que tit for tat funcione, los individuos tienen que poder reconocer a los otros jugadores y recordar qué han hecho en ocasiones anteriores. También tienen que interactuar repetidas veces y tener una probabilidad suficientemente alta de seguir haciéndolo en el futuro, para que la cooperación sea estable. Además, para que ésta surja, tiene que haber variación en las estrategias, de modo que pueda darse, o bien un proceso de tipo darwiniano, o bien alguna forma de imitación deliberada de las pautas exitosas. Por último, tiene que haber un grupo de individuos que interactúen entre sí, que empiecen cooperando y que discriminen entre los que han respondido a su cooperación y los que no. Un solo cooperador rodeado de gorrones no iría a ninguna parte. Por todo ello, generalmente se piensa que aunque la cooperación pueda imponerse en ausencia de una autoridad central en ciertos contextos, como el de una pequeña comunidad donde se dan las condiciones adecuadas de interacción reiterada e interdependencia, no es de esperar que se resuelvan así todos los DPs que surjan, por ejemplo, a nivel internacional (9).

Las opciones descritas -penalizar la no-cooperación mediante sanciones impuestas por una autoridad central o, en ausencia de ésta, "pagando con la misma moneda"- se señalan en la parte superior del esquema siguiente, que se seguirá muy rápidamente a continuación.

Si las circunstancias no se alteran, todavía puede evitarse el desastre si los participantes modifican sus objetivos o actitudes éticas. Derek Parfit distingue cuatro soluciones posibles: (i) que los participantes se hagan kantianos y hagan sólo lo que puedan querer racionalmente que hagan los demás (nadie puede querer que nadie coopere); (ii) que se conviertan en personas de fiar, de forma que si se llega a un acuerdo de cooperación no lo rompan; (iii) que se vuelvan más altruistas; y (iv) que adquieran reticencia a gorronear, de modo que prefieran hacer su parte si piensan que muchos otros también la hará (10). Esta es la opción que corresponde al "principio de la equidad" (principle of fairness) formulado H. L. A. Hart y adoptado por John Rawls: si uno acepta gustoso los beneficios logrados con el esfuerzo colectivo de otros, adquiere la obligación de cooperar, incluso cuando no se ha firmado un acuerdo explícito al respecto (11).

La última opción es la de modificar la relación entre los objetivos y el principio de elección racional. Simplificando mucho, esta idea podría explicarse como sigue. Supongamos que un individuo perdido en un desierto le dice a otro que conoce el lugar que, si le conduce hasta la población más cercana, irá al banco y le pagará este servicio. Si son racionales, sabrán que, una vez que lleguen a la ciudad, el que estaba perdido ya no tendrá ninguna razón para pagar al guía, por lo que no harán el trato y ambos perderán. Es decir, un mundo de maximizadores directos, que calculen los beneficios de cada acción concreta, considerada aisladamente y elijan la opción que maximize su utilidad, podría ser una auténtica pesadilla. Es más, ser racional en este sentido es individualmente -y no sólo colectivamente- contraproducente (en términos parfitianos, directly individually self-defeating). Por ello, David Gauthier propone otra opción, que es la del maximizador indirecto o restringido (a constrained maximizer), que es el que tiene la disposición que maximiza su utilidad (ser el tipo de individuo que cumple lo acordado, que sigue una línea, etc.) (12). Este ser racional, en este segundo sentido, saldría del desierto y pagaría su deuda, pero ¿se portaría siempre bien?. Una vez que hemos dejado atrás las apelaciones al altruismo o a la preocupación por los demás, los maximizadores restringidos podrían convertirse, por ejemplo, en los co-operadores recíprocos de Peter Danielson que "cooperan cuando y sólo cuando la cooperación es necesaria y suficiente para que los otros cooperen" (13) por lo que podrían cooperar siempre con los cooperadores condicionales y explotar a fondo a los incondicionales.

Todo esto plantea el tema de hasta dónde puede fundamentarse racionalmente la Ética y en qué sentido puede ser ésta, como sugiere Harsanyi, "una rama de la Teoría de la Conducta Racional" (14). Considerando que la Economía surgió a su vez, ya con Smith, como rama de la Ética (15), con la propuesta de este Nobel, el círculo se cerraría. No cabe duda de que estos modelos tienen sus limitaciones, pero no es necesario negarlas para reconocer su utilidad explicativa y normativa y su éxito multidisciplinar que está devolviendo a lo que Mill llamaba las "ciencias morales", parte de la unidad perdida.

NOTAS

1.-Véase R. D. Luce y H. Raiffa, Games and Decisions, Wiley, N. York, 1957, p. 94.
2.-Véase A. Sen, "Isolation, Assurance and the Social Rate of Discount", Quarterly Journal of Economics 80, 1976.
3.- J. Elster, "Marxismo, Funcionalismo y Teoría de Juegos", Zona Abierta 33, 1984, p. 48. Véase T. Domenech, De la ética a la política, Crítica, Barcelona, 1989, caps. 6 y 7 y el juego de la virtud kantiana en la p. 287.
4.- Véase, por ejemplo, "Comment on van der Veen and Van Parijs", Theory and Society 15, 1986.
5 .- Véase J. Elster, "Marxismo, funcionalismo...", p. 51 y El cambio tecnológico, Gedisa, Barcelona, 1990.
6.- Hay muchas definiciones de racionalidad y de racionalidad instrumental. Puede decirse que "actuar racionalmente" en un sentido amplio es "hacer aquello que uno tiene más razón para hacer"; o puede hablarse, como hacen los economistas, de "elegir lo que maximice la utilidad", lo que mejor satisfaga las propias preferencias. R. Hardin, p. e., se refiere a "la eficiencia con la que uno asegura sus propias metas" (Collective Action, John Hopkins UP, 1982, p. 9) y J. Elster a "la elección de la acción factible, compatible con las restricciones estructurales, que produzca los mejores resultados" (véase, p. e., "Marxismo, funcionalismo...", p. 39 y Rational Choice, Blackwell, Oxford, 1986, p. 4). En castellano, véase J. Mosterín, Racionalidad y acción humana, Alianza, Madrid, 1978.
7.- J. Elster, El cambio tecnológico, p. 65.
8.- Véanse dos obras clásicas, M. Olson, La lógica de la acción colectiva, Limusa, México, 1993 y R. Hardin ibid.; y P. Oliver y G. Marwell, "The Paradox of Group Size in Collective Action" American Sociological Review 53, 1988 y The Critical Mass in Collective Action, Cambridge UP, 1993.
9.- Véase M. Taylor, Anarchy and Cooperation, Wiley, Londres, 1976 y R. Axelrod, "The Emergence of Cooperation among Egoists", The American Political Science Review, 75, 1981, reimpreso en P. K. Moser (ed.) Rationality in Action, Cambridge UP, 1990, y en R. Campbell y L. Sowden (eds.), Paradoxes of Rationality and Cooperation, U. of British Columbia Press, Vancouver, 1985, que son dos excelentes volúmenes sobre los temas aquí tratados, y La evolución de la cooperación, Alianza, Madrid, 1982. Un buen resumen no técnico puede encontrarse en "Tit for Tat", P. Singer (ed.) Ethics, Oxford UP, 1994.
10.- D. Parfit, "Prudence, Morality and the Prisoner's Dilemma", en J. Elster (ed.) Rational Choice, p. 38.
11.- Véase H. L. A. Hart, "Are There any Natural Rights?", Philosophical Review 64, 1955; J. Rawls, Teoría de la justicia, FCE, México DF, 1971, seccs. 18 y 52; y G. Klosko, The Principle of Fairness and Political Obligation, Rowman and Littlefield Publishers, Lanham, USA, 1992.
12.- Véase D. Gauthier, La moral por acuerdo, Gedisa, Barcelona, 1994, y P. Vallentyne (ed.) Contractarianism and Rational Choice, Cambridge UP, 1991.
13.- P. Danielson, Artificial Morality: Virtuous Robots for Virtual Games, Routledge, Londres, 1992, p. 82.
14. J. Harsanyi, "Morality and the Theory of Rational Behaviour", en A. Sen y B. Williams, Utilitarianism and Beyond, Cambridge UP, 1982, pp. 40 y ss.
15.- Véase en Sobre ética y economía, Alianza, Madrid, 1989, p. 11 y ss. los comentarios de A. Sen sobre esta antigua unión y posterior divorcio.

THEORIA | Proyecto Crítico de Ciencias Sociales - Universidad Complutense de Madrid