Accueil » Actualité » DeepMind écrase deux pros de Starcraft 2 après 400 ans d’entrainement en 15 jours

DeepMind écrase deux pros de Starcraft 2 après 400 ans d’entrainement en 15 jours

Il y a toutefois un « mais »…

Voilà déjà l’une des vidéos les plus intéressantes de l’année sur Youtube : les premières confrontations sur Starcraft 2 entre l’IA de DeepMind, nommée AlphaStar, et l’humain. Les premiers rounds furent clairement en faveur de l’IA, gagnant 10-0 contre deux joueurs pros renommés, TLO et MaNa. Heureusement, le tout dernier match d’hier a vu une clair domination de l’humain sur la machine, ramenant le score à 10-1.

200 ans de Starcraft 2 en 7 jours

Partant de zéro, l’IA a entraîné son premier « agent » en trois jours en regardant 3500 matchs pour apprendre les bases du jeu, et imiter l’humain (imitation learning). Ensuite, DeepMind a créé une ligue interne de compétition en démultipliant les meilleurs agents pour les faire jouer les uns contre les autres (reinforcement learning).

Après une semaine de ligue, cinq des agents avec les meilleurs taux de victoire furent sélectionnés. Chacun avait alors totalisé 200 ans d’entraînement en 7 jours sur les supercalculateurs de Google. Ces 5 agents ont chacun battu TLO (5-0) joueur pro qui n’était toutefois pas spécialisé dans la race qu’il devait jouer (Protoss).

Image 1 : DeepMind écrase deux pros de Starcraft 2 après 400 ans d'entrainement en 15 jours

Ces agents ont ensuite poursuit l’entrainement pendant une semaine de plus, soit 400 ans de jeu pour chaque agent au total. Et ils ont battu MaNa, cette fois l’un des 10 meilleurs joueurs Protoss du monde. Une victoire tout aussi écrasante : 5-0 encore ! Dans la vidéo ci-dessous, on peut voir la manière de raisonner de l’IA, et constater qu’elle comprend déjà sa victoire bien avant la fin du match.

Un comportement similaire à l’humain

Image 2 : DeepMind écrase deux pros de Starcraft 2 après 400 ans d'entrainement en 15 jours

L’IA a-t-elle gagné grâce à ses avantages de machine ? La vitesse de jeu d’AlphaStar était similaire à celle d’un humain, avec un temps de réaction moyen de 300 ms (pour constater, prendre une décision et agir). Le nombre d’actions par minute était même inférieur. Deux avantages clairs sont toutefois en faveur de la machine : la précision de chaque clic sur chaque unité est parfaite, ce qui a permis une gestion d’unité « incroyable« , selon MaNa. De l’autre, la vision d’AlphaStar était globale, alors que l’humain est limité par la taille de son écran, devant décider où regarder au meilleur moment.

Image 3 : DeepMind écrase deux pros de Starcraft 2 après 400 ans d'entrainement en 15 jours

Dernière victoire contre un nouvel agent

Les 9 premiers matchs furent enregistrés mi décembre. Et diffusés en partie hier sur Youtube. Tous les replays sont disponibles sur cette page, chez DeepMind. Une dernière chance pour MaNa s’est jouée hier en direct, contre un tout nouvel agent reparti de zéro pour son entraînement. Selon Google, cet agent est devenu aussi fort que les précédents, alors qu’il était cette fois limité par un champ de vision égal à celui de l’humain dans le jeu (incapable d’observer la totalité de la carte).

Image 4 : DeepMind écrase deux pros de Starcraft 2 après 400 ans d'entrainement en 15 jours

C’est justement ce qui a profité à MaNa dans cette partie. Le joueur n’était pourtant pas prévenu des capacités restreintes du nouvel agent. Il a choisi de harceler AlphaStar derrière sa base, ce qui a créé la confusion pour la machine, tout en prenant soin de bien se tenir au courant des faits et geste de l’IA sur le terrain. La victoire fut difficile, mais franche à la fin de la partie. A MaNa de conclure : « J’ai réalisé à quel point mon style de jeu consiste à provoquer l’erreur et exploiter les réactions humaines, donc cette expérience a placé le jeu sous une autre perspective pour moi« . On a hâte de voir les futures confrontations !