MuZero, l’agent AI de DeepMind, pourrait faire exploser YouTube

MuZero Le dernier programme d’intelligence artificielle de DeepMind peut atteindre une « performance surhumaine » dans les tâches sans qu’il soit nécessaire de lui donner des règles.

Comme les premiers agents d’intelligence artificielle du centre de recherche, MuZero est passé maître dans des dizaines de vieux jeux vidéo Atari, aux échecs et dans les jeux de société asiatiques de Go et de Shogi.

Mais contrairement à ses prédécesseurs, il a dû élaborer ses propres règles. Il est déjà mis en pratique pour trouver une nouvelle façon d’encoder les vidéos, ce qui pourrait réduire les coûts de YouTube.

« Le monde réel est désordonné et compliqué, et personne ne nous donne de règles pour son fonctionnement », a déclaré à la BBC David Silver, le principal chercheur de DeepMind. « Pourtant, les humains sont capables de formuler des plans et des stratégies sur ce qu’il faut faire ensuite.

« Pour la première fois, nous avons un système capable de construire sa propre compréhension du fonctionnement du monde et de l’utiliser pour faire ce genre de planification sophistiquée que vous avez déjà vu pour des jeux comme les échecs.

« Il peut partir de rien, et juste par essais et erreurs, à la fois découvrir les règles du monde et utiliser ces règles pour atteindre une sorte de performance surhumaine.

Wendy Hall, professeur d’informatique à l’université de Southampton et membre du conseil gouvernemental d’AI, a déclaré que ce travail constituait « un progrès significatif », mais qu’il suscitait des inquiétudes.

« Les résultats du travail de DeepMind sont assez étonnants et je m’émerveille de ce qu’ils vont pouvoir réaliser à l’avenir compte tenu des ressources dont ils disposent », a-t-elle déclaré.

« Mon inquiétude est que, tout en s’efforçant constamment d’améliorer les performances de leurs algorithmes et d’appliquer les résultats au profit de la société, les équipes de DeepMind ne consacrent pas autant d’efforts à réfléchir aux éventuelles conséquences involontaires de leurs travaux.

« Je doute que les inventeurs du moteur à réaction aient pensé à la pollution mondiale lorsqu’ils travaillaient sur leurs inventions. Nous devons trouver le bon équilibre dans le développement de la technologie de l’intelligence artificielle ».

Compression vidéo

La société londonienne DeepMind a publié les premiers détails de MuZero en 2019, mais a attendu la publication d’un article dans la revue Nature pour en discuter.

Il s’agit du dernier succès de l’entreprise dans le domaine de l’apprentissage par renforcement profond – une technique qui utilise des réseaux de neurones à plusieurs niveaux pour permettre aux machines de s’enseigner de nouvelles compétences par un processus d’essais et d’erreurs, en recevant des « récompenses » pour le succès plutôt que de se faire dire quoi faire.

MuZero suit les traces de :

  • d’un programme appelé DQN, qui a permis d’atteindre un niveau de compétence inégalé dans les jeux vidéo Atari en utilisant uniquement des pixels et des scores de jeu comme données d’entrée
  • AlphaGo, le programme qui a battu le maître du go Lee-Sedol 4-1 lors d’une compétition inédite en 2016, après s’être entraîné sur les matchs précédents
  • AlphaGo Zero, qui a surpassé AlphaGo en performance l’année suivante après s’être entraîné à partir de zéro en n’ayant reçu que les règles de base du jeu
  • AlphaZero, qui en 2017 a généralisé AlphaGo Zero afin qu’il puisse être appliqué à d’autres jeux, dont les échecs et le Shogi

Plus récemment, DeepMind – qui appartient à la même société mère que celle de Google – a fait une percée dans le domaine du pliage des protéines en adaptant ces techniques, ce qui pourrait ouvrir la voie à de nouveaux médicaments pour lutter contre la maladie.

MuZero pourrait bientôt être mis en pratique également.

Le Dr Silver a déclaré que DeepMind l’utilisait déjà pour essayer d’inventer un nouveau type de compression vidéo.

« Si vous regardez le trafic de données sur Internet, la majorité est de la vidéo, donc si vous pouvez compresser la vidéo plus efficacement, vous pouvez faire des économies massives », a-t-il expliqué. »Et les premières expériences avec MuZero montrent que vous pouvez en fait faire des gains assez importants, ce qui nous réjouit ».

Il n’a pas voulu savoir quand et comment Google pourrait utiliser ce système, mais il a simplement dit que plus de détails seraient publiés au cours de la nouvelle année.Cependant, comme Google possède la plus grande plateforme de partage de vidéos au monde – YouTube – il a le potentiel pour faire de grosses économies.

Compression des données

MuZero peut atteindre une « performance surhumaine »

DeepMind n’est pas le premier à essayer de créer un agent qui à la fois modélise la dynamique de l’environnement dans lequel il est placé et effectue des recherches arborescentes – décidant de la manière de procéder en regardant plusieurs étapes à l’avance pour déterminer le meilleur résultat.

Cependant, les tentatives précédentes ont eu du mal à faire face à la complexité des défis « visuellement riches », tels que ceux posés par les vieux jeux vidéo comme Ms Pac-Man.

L’entreprise estime qu’elle a réussi parce que MuZero essaie seulement de modéliser les aspects de l’environnement qui sont importants pour son processus décisionnel, en adoptant plutôt une approche plus large.

« Savoir qu’un parapluie vous gardera au sec est plus utile que de modéliser le modèle des gouttes de pluie dans l’air », explique-t-il dans un blog.L’article de Nature rapporte que MuZero s’est avéré légèrement meilleur qu’AlphaZero au jeu de Go, bien qu’il fasse moins de calculs de recherche d’arbres par coup.

Il a également déclaré qu’il surpassait R2D2 – le principal algorithme de jeu Atari qui ne modélise pas le monde – à 42 des 57 jeux testés sur l’ancienne console. De plus, il l’a fait après avoir effectué seulement la moitié des étapes de formation.

Ces deux résultats montrent que MuZero est effectivement capable d’extraire plus d’informations à partir de moins de données que ce qui était possible auparavant, a expliqué le Dr Silver.

« Imaginez que vous avez un robot qui se promène dans le monde réel et qui coûte cher à faire fonctionner », a-t-il déclaré. »Vous voulez donc qu’il apprenne autant que possible du petit nombre d’expériences qu’il a. MuZero est capable de faire cela ».

Il a ajouté que d’autres utilisations potentielles comprenaient les assistants virtuels de nouvelle génération, la médecine personnalisée et les technologies de recherche et de sauvetage.

Soyez le premier à commenter

Poster un Commentaire

Votre adresse de messagerie ne sera pas publiée.


*