La IA StarCraft 2 de DeepMind es ahora mejor que el 99,8 por ciento de todos los jugadores humanos

La IA StarCraft 2 de DeepMind es ahora mejor que el 99,8 por ciento de todos los jugadores humanos

DeepMind ha anunciado hoy un nuevo hito para sus agentes de inteligencia artificial entrenados para jugar al juego de Blizzard Entertainment StarCraft II. El software más sofisticado del laboratorio de IA, propiedad de Google, todavía llamado AlphaStar, es ahora un nivel de gran maestro en el juego de estrategia en tiempo real, capaz de superar al 99,8 por ciento de todos los jugadores humanos en la competición. Los resultados se publicarán en un artículo de investigación en la revista científica Nature.

No sólo eso, sino que DeepMind dice que también igualó el campo de juego al probar el nuevo y mejorado AlphaStar contra oponentes humanos que optaron por las competencias en línea el verano pasado. Por ejemplo, entrenó a AlphaStar para usar las tres razas jugables del juego, lo que añadió complejidad al juego en los niveles superiores del juego profesional. También limitó a AlphaStar a ver sólo la porción del mapa que vería un humano y restringió el número de clics del ratón que podía registrar a 22 acciones no duplicadas cada cinco segundos de juego, para alinearlo con el movimiento humano estándar.

AlphaStar es el primer gran maestro de la IA en Starcraft II

Aún así, la IA fue capaz de alcanzar el nivel de gran maestro, la clasificación competitiva en línea más alta posible, y marca el primer sistema en hacerlo en StarCraft II. DeepMind ve este avance como una prueba más de que el aprendizaje de refuerzo de propósito general, que es la técnica de aprendizaje de máquinas que sustenta el entrenamiento de AlphaStar, puede algún día ser utilizado para entrenar robots de autoaprendizaje, coches de autoconducción, y crear sistemas más avanzados de reconocimiento de imágenes y objetos.

«La historia del progreso en la inteligencia artificial ha estado marcada por logros históricos en los juegos. Desde que las computadoras descifraron el Go, el ajedrez y el póquer, StarCraft ha surgido por consenso como el próximo gran desafío», dijo David Silver, un científico investigador principal de DeepMind en el equipo AlphaStar, en una declaración. «La complejidad del juego es mucho mayor que el ajedrez, porque los jugadores controlan cientos de unidades; más complejo que el Go, porque hay 10^26 opciones posibles para cada movimiento; y los jugadores tienen menos información sobre sus oponentes que en el póquer».

En enero, DeepMind anunció que su sistema AlphaStar era capaz de mejorar a los mejores jugadores profesionales 10 partidos seguidos durante una sesión pregrabada, pero perdió contra el jugador profesional Grzegorz «MaNa» Komincz en un último partido retransmitido en directo por Internet. La empresa siguió mejorando el sistema entre enero y junio, cuando dijo que empezaría a aceptar invitaciones para jugar a los mejores jugadores humanos de todo el mundo. Los partidos siguientes tuvieron lugar en julio y agosto, dice DeepMind.

Los resultados fueron impresionantes: AlphaStar se había convertido en uno de los jugadores de Starcraft II más sofisticados del planeta, pero sorprendentemente aún no era del todo sobrehumano. Hay aproximadamente un 0,2 por ciento de jugadores capaces de derrotarlo, pero se considera en gran medida sólo una cuestión de tiempo antes de que el sistema mejore lo suficiente como para aplastar a cualquier oponente humano.

La IA StarCraft 2 de DeepMind es ahora mejor que el 99,8 por ciento de todos los jugadores humanos>Imagen: DeepMind

Este hito en la investigación se alinea estrechamente con uno similar de la empresa de investigación de la IA OpenAI, con sede en San Francisco, que ha estado entrenando a los agentes de la IA utilizando el aprendizaje de refuerzo para jugar el sofisticado juego multijugador de cinco contra cinco Dota 2. En abril, la versión más sofisticada del software OpenAI Five, como se llama, superó al equipo campeón del mundo Dota 2 después de perder por poco ante dos equipos de e-sports menos capaces el verano anterior. El salto en las capacidades de OpenAI Five es un reflejo del de AlphaStar, y ambos son fuertes ejemplos de cómo este enfoque de la IA puede producir niveles sin precedentes de capacidad de juego.

Al igual que los bots Dota 2 de OpenAI y otros agentes de juego, el objetivo de este tipo de investigación de la IA no es sólo aplastar a los humanos en varios juegos sólo para demostrar que se puede hacer. En su lugar, es probar que – con suficiente tiempo, esfuerzo y recursos – un sofisticado software de IA puede mejorar a los humanos en prácticamente cualquier desafío cognitivo competitivo, ya sea un juego de mesa o un videojuego moderno. También es para mostrar los beneficios del aprendizaje de refuerzo, una marca especial de aprendizaje automático que ha tenido un éxito masivo en los últimos años cuando se combina con grandes cantidades de potencia de cálculo y métodos de entrenamiento como la simulación virtual.

Al igual que OpenAI, DeepMind entrena a sus agentes AI contra versiones de sí mismos y a un ritmo acelerado, de modo que los agentes pueden cronometrar cientos de años de tiempo de juego en el lapso de unos pocos meses. Esto ha permitido que este tipo de software esté en igualdad de condiciones con algunos de los jugadores humanos más talentosos de Go y, ahora, con juegos mucho más sofisticados como Starcraft y Dota.

Este tipo de IA puede algún día controlar robots más inteligentes, seguros y autodidactas

Sin embargo, el software sigue estando restringido a la estrecha disciplina que está diseñado para abordar. El agente de Go-playing no puede jugar a Dota, y viceversa. (DeepMind dejó que una versión de propósito más general de su agente de Go-playing probara su mano en el ajedrez, que dominó en cuestión de ocho horas). Esto se debe a que el software no está programado con conjuntos de reglas o instrucciones fáciles de reemplazar. En su lugar, DeepMind y otras instituciones de investigación utilizan el aprendizaje de refuerzo para que los agentes descubran cómo jugar por sí mismos, por lo que el software desarrolla a menudo estilos de juego novedosos y salvajemente impredecibles que desde entonces han sido adoptados por los mejores jugadores humanos.

«AlphaStar es un jugador intrigante y poco ortodoxo, con los reflejos y la velocidad de los mejores profesionales, pero con estrategias y un estilo totalmente propio. La forma en que AlphaStar fue entrenado, con agentes compitiendo entre sí en una liga, ha dado lugar a una jugabilidad inimaginablemente inusual; realmente hace que uno se pregunte qué tanto de las diversas posibilidades de StarCraft han explorado realmente los jugadores profesionales», dijo Diego «Kelazhur» Schwimer, un jugador profesional del equipo Panda Global, en un comunicado. «Aunque algunas de las estrategias de AlphaStar puedan parecer extrañas al principio, no puedo evitar preguntarme si la combinación de todos los diferentes estilos de juego que ha demostrado podría ser realmente la mejor manera de jugar el juego».

DeepMind espera que los avances en el aprendizaje de refuerzo alcanzados por su laboratorio y por sus compañeros de investigación en IA puedan ser más ampliamente aplicables en algún momento del futuro. La aplicación más probable en el mundo real de este tipo de software es la robótica, donde las mismas técnicas pueden entrenar adecuadamente a los agentes de la IA a realizar tareas del mundo real, como la operación de manos robóticas, en la simulación virtual. Entonces, después de simular años y años de control motor, la IA puede tomar las riendas de un brazo robótico físico, y quizás algún día incluso controlar robots de cuerpo completo. Pero DeepMind también considera que los coches autoconductores cada vez más sofisticados – y por lo tanto más seguros – son otro lugar para su enfoque específico del aprendizaje automático.

Corrección: Una versión anterior de este artículo afirmaba que DeepMind restringía AlphaStar a 20 acciones cada cinco minutos. Esto es incorrecto; la restricción era de 22 acciones no duplicadas cada cinco segundos. Lamentamos el error.

Compruebe también

Los Héroes del Emblema del Fuego se ponen nerviosos con el contenido de Halloween

Los Héroes del Emblema del Fuego se ponen nerviosos con el contenido de Halloween

Trucos y Golosinas Con la temporada más espeluznante a la vuelta de la esquina, Nintendo …