red-deck-of-cards-ace-of-spades

por Maria Konnikova

Tuomas Sandholm, un científico informático de la Universidad Carnegie Mellon, no es un jugador de póquer —o un gran fanático del póquer, de hecho— pero está fascinado por el juego por la misma razón que el gran teórico de juegos John von Neumann antes que él. Von Neumann, quien murió en 1957, vio el póquer como el modelo perfecto para la toma de decisiones humana, para encontrar el equilibrio entre la habilidad y el azar que acompaña a todas nuestras elecciones. Vio el póquer como el desafío estratégico último, la combinación, ya que no se limita a los elementos matemáticos de un juego como el ajedrez, pero los ángulos exclusivamente humanas, psicológicas que son más difíciles de modelar con precisión una vista años compartidos más tarde por Sandholm en su investigación con inteligencia artificial.

red-deck-of-cards-ace-of-spades

“El póquer es el principal programa de referencia y desafío para los juegos de información imperfecta”, me dijo Sandholm en una cálida tarde de primavera de 2018, cuando nos reunimos en sus oficinas en Pittsburgh. Resulta que el juego se ha convertido en el estándar de oro para desarrollar inteligencia artificial.

Sandholm, alto y delgado, con lentes de armazón de alambre y un pulcro cabello en la frente que enmarca una cara amigable, está detrás de la creación de tres programas de computadora diseñados para probar su temple contra jugadores humanos de póquer: Claudico, Libratus y, más recientemente, Pluribus . (Cuando nos conocimos, Libratus aún era un niño pequeño y Pluribus aún no existía). El objetivo no es resolver el póquer como tal, sino crear algoritmos cuya destreza para tomar decisiones en el mundo del póquer de información imperfecta y situaciones estocásticas: situaciones que se determinan al azar y no se pueden predecir, se pueden aplicar a otros ámbitos estocásticos, como el ejército, las empresas, el gobierno, la ciberseguridad e incluso la atención médica.

Si bien el primer programa, Claudico, fue derrotado sumariamente por jugadores de póquer humanos (“un robot roto”, lo llamó un observador), Libratus ha triunfado en una serie de partidos uno contra uno, o mano a mano, contra algunos de los mejores jugadores online de Estados Unidos.

Libratus se basa en tres módulos principales. El primero implica una estrategia de plano básico para todo el juego, lo que le permite alcanzar un equilibrio mucho más rápido que su predecesor. Incluye un algoritmo llamado Monte Carlo Counterfactual Regret Minimization, que evalúa todas las acciones futuras para determinar cuál causaría la menor cantidad de arrepentimiento. El arrepentimiento, por supuesto, es una emoción humana. Lamentar una computadora simplemente significa darse cuenta de que una acción que no se eligió habría dado un mejor resultado que una que sí. “Intuitivamente, el arrepentimiento representa cuánto lamenta la IA de no haber elegido esa acción en el pasado”, dice Sandholm. Cuanto mayor sea el arrepentimiento, mayor será la posibilidad de elegir esa acción la próxima vez.

Es una forma útil de pensar, pero increíblemente difícil de implementar para la mente humana. Somos notoriamente malos para anticipar nuestras emociones futuras. ¿Cuánto nos arrepentiremos de haber hecho algo? ¿Cuánto nos arrepentiremos de no haber hecho otra cosa? Para nosotros, es un cálculo cargado de emociones y, por lo general, no lo aplicamos de la manera correcta. Para una computadora, se trata del cálculo de valores. ¿Qué es lo que más lamenta no haber hecho, lo que habría producido el mayor valor esperado posible?

El segundo módulo es un solucionador de subjuegos que tiene en cuenta los errores que el oponente ha cometido hasta ahora y tiene en cuenta todas las manos que podría tener. Y finalmente, hay un auto-mejorador. Esta es el área donde entran en juego los datos y el aprendizaje automático. Es peligroso intentar explotar a tu oponente; te expone al riesgo de que te exploten de nuevo, especialmente si eres un programa de computadora y tu oponente es humano. Entonces, en lugar de intentar hacer eso, el auto-mejorador permite que las acciones del oponente informen las áreas donde el programa debe enfocarse. “Eso permite que las acciones del oponente nos digan dónde creen que han encontrado agujeros en nuestra estrategia”, explicó Sandholm. Esto permite que el algoritmo desarrolle una estrategia de proyecto para reparar esos agujeros.

Es una adaptación muy parecida a la humana, si lo piensas. No voy a intentar superarte de frente. En cambio, voy a ver cómo estás tratando de superarme y responder en consecuencia. Sun-Tzu seguramente lo aprobaría. Observa cómo te perciben, no cómo te percibes a ti mismo, porque al final, estás jugando contra aquellos que están percibiendo, y su opinión, correcta o no, es la única que importa cuando elaboras tu estrategia. De la noche a la mañana, el algoritmo corrige su enfoque general de acuerdo con el análisis resultante.

Hay una última cosa que Libratus puede hacer: jugar en situaciones con probabilidades desconocidas. Hay un concepto en la teoría de juegos conocido como la mano temblorosa: hay ramas del árbol del juego a las que, bajo una estrategia óptima, uno teóricamente nunca debería llegar; pero con cierta probabilidad, la mano de tu oponente demasiado humano tiembla, realiza una acción incorrecta y de repente te encuentras en una parte del juego que no está cartografiada. Antes, eso significaría un desastre para la computadora: una parte del árbol sin asignar significa que el programa ya no sabe cómo responder. Ahora, hay un plan de contingencia.

Por supuesto, ningún algoritmo es perfecto. Cuando Libratus juega al póquer, esencialmente está trabajando en un entorno de suma cero. Gana, el oponente pierde. El oponente gana, pierde. Pero aunque algunas interacciones de la vida real son realmente de suma cero (me viene a la mente la guerra cibernética), muchas otras no son tan sencillas: mi victoria no significa necesariamente su pérdida. El pastel no es fijo, y nuestras interacciones pueden ser de suma más positiva que no.

Además, las aplicaciones de la vida real tienen que lidiar con algo que un algoritmo de póquer no tiene: los pesos que se asignan a los diferentes elementos de una decisión. En el póquer, este es un proceso simple para maximizar el valor. Pero, ¿qué es el valor en el ámbito humano? Sandholm tuvo que lidiar con esto antes, cuando ayudó a crear el primer intercambio de riñón del mundo. ¿Quiere ser más eficiente, dando la máxima cantidad de riñones lo más rápido posible, o más justo, lo que puede tener un costo para la eficiencia? ¿Quiere que se salven tantas vidas como sea posible, o algunas tienen prioridad a costa de llegar a más? ¿Existe alguna preferencia por la duración de la espera hasta el trasplante? ¿Tienen preferencia los niños? Y así sucesivamente. Es esencial, dice Sandholm, separar los medios y los fines. Para descubrir los fines, un ser humano tiene que decidir cuál es el objetivo.

“En última instancia, el mundo se volverá mucho más seguro con la ayuda de algoritmos como Libratus”, me dijo Sandholm. No estaba seguro de lo que quería decir. Lo último que la mayoría de la gente haría es llamar al póquer, con su competencia, sus ganadores y perdedores, su búsqueda para obtener la máxima ventaja sobre su oponente, un refugio de seguridad.

“La lógica es buena y la IA es mucho mejor en el razonamiento estratégico de lo que los humanos pueden ser”, explicó. “Es eliminar la irracionalidad, la emocionalidad. Y es más justo. Si tiene una IA de su lado, puede elevar a los no expertos al nivel de expertos. Los negociadores ingenuos tendrán de repente una mejor arma. Podemos empezar a cerrar la brecha digital ”.

Era una nota optimista para terminar: un juego competitivo de suma cero que producía un mundo más justo y racional en última instancia.

Quería aprender más, para ver si era realmente posible que las matemáticas y los algoritmos pudieran ser, en última instancia, el futuro de interacciones más humanas y psicológicas. Y así, ese mismo día, acompañé a Nick Nystrom, el científico jefe del Centro de Supercomputación de Pittsburgh, el lugar donde se ejecutan todos los programas de IA de póquer de Sandholm, al centro de procesamiento real que hace posible empresas como Libratus.

Un viaje de media hora nos encontró en un estacionamiento junto a un gran edificio de vidrio. Esperaba algo más futurista, no el mismo cuadrado, cuadrados de cristal corporativos que he visto innumerables veces antes. El interior, sin embargo, era más prometedor. Primero el control de seguridad. Luego, el viaje en el ascensor, hacia abajo, no hacia arriba, a aproximadamente tres pisos bajo tierra, donde nos encontramos en un laberinto de pasillos con lectores de tarjetas en cada momento para asegurarnos de que no se deslice sin ser detectado. Un panel de luz roja formaba la barrera final, lo que conducía a una pequeña franja de espacio entre dos juegos de puertas. Podía escuchar un fuerte zumbido que venía del otro lado.

“Déjame decirte lo que vas a ver antes de que entremos”, me dijo Nystrom. “Una vez que entremos, será demasiado fuerte para escuchar”.

Estaba a punto de presenciar el corazón del centro de supercomputación: 27 contenedores grandes, en filas ordenadas, cada uno con varios procesadores con velocidades y capacidades demasiado grandes para que mi mente pueda comprender. En el interior, la temperatura es por turnos ártica y tropical, las llamadas filas “frías” que se alternan con “calientes”: los ventiladores operan las 24 horas del día para enfriar los procesadores mientras se mueven a través de millones de giga, mega, tera, peta y otros. escalas crecientes de bytes de datos. En las filas frescas, las luces de aspecto robótico parpadean en verde y azul en una progresión ordenada. En las hileras calientes, un revoltijo de cables multicolores se entrecruza en madejas enredadas.

En las esquinas había máquinas que habían sobrevivido a su apogeo. Estaba Sherlock, un viejo modelo de Cray, que me conmovió el corazón. Había una triste computadora sin nombre, cuyo anonimato fue parcialmente compensado por las latas de sopa de Warhol que adornaban su jaula (un homenaje a los orígenes de Warhol en Pittsburgh).

¿Y dónde vive Libratus ?, le pregunté. ¿Cuál de estas computadoras es Bridges, la computadora que ejecuta la IA que Sandholm y yo habíamos estado discutiendo?

Bridges, resultó, no es una sola computadora. Es un sistema con un poder de procesamiento más allá de la comprensión. Se necesitan más de dos petabytes y medio para ejecutar Libratus. Un solo petabyte es un millón de gigabytes: podría ver más de 13 años de video HD, almacenar 10 mil millones de fotos, catalogar el contenido de toda la Biblioteca del Congreso palabra por palabra. Eso es una gran cantidad de potencia informática. Y eso es solo para tener éxito en el heads-up, en circunstancias limitadas.

Sin embargo, a pesar de la asombrosa potencia informática a su disposición, Libratus sigue estando muy limitado. Sí, venció a sus oponentes donde Claudico falló. Pero a los profesionales del póquer no se les permitió usar muchas de las herramientas de su oficio, incluido el software de análisis de oponentes del que dependen en los juegos en línea reales. Y los humanos se cansan. Libratus puede agitarse para un maratón de dos semanas, donde la mente humana vacila.

Pero todavía hay mucho que no puede hacer: jugar con más oponentes, jugar en vivo o ganar cada vez. Hay más humanidad en el póquer de la que Libratus ha conquistado hasta ahora. “Existe la creencia de que se trata de estadísticas y correlaciones. Y en realidad no lo creemos ”, explicó Nystrom cuando dejamos atrás a Bridges. “De vez en cuando las correlaciones son buenas, pero en general, también pueden ser realmente engañosas”.

Dos años más tarde, el laboratorio de Sandholm producirá Pluribus. Pluribus podrá jugar contra cinco jugadores y se ejecutará en una sola computadora. Gran parte del borde humano se habrá evaporado en muy poco tiempo. Los algoritmos han mejorado, al igual que las computadoras. La IA, al parecer, ha ganado a pasos agigantados.

Entonces, ¿eso significa que, en última instancia, lo algorítmico puede vencer al humano, que la computación puede desenredar la red de la interacción humana al discernir “las pequeñas tácticas del engaño, de preguntarse qué va a pensar el otro hombre que quiero hacer? , ”Como dijo von Neumann?

Mucho antes de hablar con Sandholm, conocí a Kevin Slavin, una especie de erudito cuyas carreras pasadas incluyen la fundación de una compañía de diseño de juegos y un espacio de arte interactivo y el lanzamiento del grupo Playful Systems en el Media Lab del MIT. Slavin tiene una visión decididamente diferente a la de los creadores de Pluribus. “Por un lado, [von Neumann] era un genio”, reflexiona Kevin Slavin. “Pero la presunción de ello”.

Slavin está firmemente del lado del jugador, que reconoce la incertidumbre por lo que es y, por lo tanto, es capaz de tomar riesgos calculados cuando es necesario, al mismo tiempo que manipula la confianza en el resultado. Lo máximo que puede hacer es ponerse en el camino de la suerte, pero pensar que puede adivinar con certeza el resultado real es una presunción que el verdadero jugador de póquer renuncia. Para Slavin, la maravilla de las computadoras es “que pueden generar esta aleatoriedad fabulosa y compleja”. ¿Su opinión sobre los ataques algorítmicos al azar? “Este es su momento”, dijo. “Pero es exactamente lo contrario de lo realmente hermoso de una computadora, que es que puede hacer algo que en realidad es impredecible. Eso, para mí, es la magia “.

Sin embargo, ¿realmente lograrán que lo impredecible sea predecible? Eso es lo que quiero saber. Porque todo lo que he visto me dice que el éxito absoluto es imposible. La cubierta no está amañada.

“Es una increíble cantidad de trabajo llegar allí. ¿Qué obtienes al final? Digamos que tienen éxito. Entonces vivimos en un mundo en el que no hay Dios, agencia ni suerte ”, respondió Slavin.

“No quiero vivir allí”, agregó “Simplemente no quiero vivir allí”.

Por suerte, parece que por ahora no tendrá que hacerlo. Hay más cosas en la vida de las que todavía están escritas en los algoritmos. No tenemos un software de detección de mentiras confiable, ya sea en la cara, la piel o el cerebro. En una prueba reciente de fanfarronear en el póquer, el reconocimiento facial por computadora falló estrepitosamente. Podemos sentirnos incómodos, pero no podemos llegar a las razones de ese malestar: mentir, fatiga, estrés, todos se ven muy parecidos. Y los humanos, por supuesto, también pueden imitar el estrés donde no existe, lo que complica aún más el panorama.

Pluribus puede resultar poderoso, pero el desafío de von Neumann sigue en pie: la verdadera naturaleza de los juegos, la más humana de los humanos, está por conquistar.

Maria Konnikova

Maria Konnikova es la autora, más recientemente, de “The Biggest Bluff”. Es una escritora que colabora regularmente con The New Yorker, autora de dos éxitos de ventas anteriores del New York Times y jugadora de póquer profesional.

Este artículo se publicó originalmente en Undark . Lea el artículo original .

Crédito de la imagen: José Pablo Iglesias /  Unsplash

Fuente: https://singularityhub.com/2020/08/07/the-deck-is-not-rigged-poker-and-the-limits-of-ai/

Deja un comentario