Il faut répondre à deux questions au début de toute recherche sur l’IA. Que voulons-nous que les systèmes d’IA fassent ? Et comment évaluerons-nous lorsque nous aurons progressé vers cet objectif ? Alan Turing, dans son article fondateur décrivant le test de Turing, qu’il appelait plus modestement le jeu de l’imitation, affirmait que pour un type d’intelligence artificielle donné, ces questions pouvaient être identiques. En gros, si le comportement d’une IA est similaire à celui d’un humain lorsqu’elle interagit avec elle, cela signifie que l’IA a réussi le test et peut être qualifiée d’intelligente. L’IA conçue pour interagir avec les humains doit être testée en interagissant avec les humains.
En même temps, l’interaction n’est pas seulement un test d’intelligence mais aussi le but. Pour que les agents IA soient généralement utiles, ils doivent nous assister dans diverses activités et communiquer normalement avec nous. Dans la science-fiction, voir des robots avec qui on peut parler est un phénomène courant. Des agents numériques intelligents qui peuvent aider à accomplir un grand nombre de tâches seront très utiles. Pour faire de ces dispositifs une réalité, nous devons étudier le problème de la création d’agents capables d’interagir efficacement avec les humains et de produire des actions dans un monde riche.
Les agents de construction qui peuvent interagir avec les humains et le monde posent un certain nombre de défis importants. Comment pouvons-nous fournir des signaux d’apprentissage appropriés pour enseigner de telles capacités aux agents artificiels ? Comment évaluer la performance des agents que nous développons alors que le langage lui-même est si vague et abstrait ? Étant donné que la soufflerie concerne la conception d’avions, nous avons créé un environnement virtuel pour rechercher comment fabriquer des réactifs.
Nous créons d’abord un environnement simulé, la salle de jeux, où les robots virtuels peuvent s’engager dans une variété d’interactions intéressantes en se déplaçant, en manipulant des objets et en se parlant. Les dimensions de la salle de jeux peuvent être sélectionnées au hasard, ainsi que personnalisées pour les étagères, les meubles, les fonctionnalités telles que les fenêtres et les portes, et une variété de jouets pour enfants et d’articles ménagers. La diversité de l’environnement permet des interactions qui impliquent une réflexion sur les relations de l’espace et des objets, l’ambiguïté des références, le confinement, la construction, le support, l’occlusion et l’observation partielle. Nous avons inclus deux travailleurs de la salle de jeux pour fournir une dimension sociale à l’étude de l’intention partagée, de la collaboration, de la communication des connaissances privées, etc.
Nous exploitons une gamme de modèles d’apprentissage pour créer des agents qui peuvent interagir avec les humains, y compris l’apprentissage simulé, l’apprentissage par renforcement, l’apprentissage supervisé et l’apprentissage non supervisé. Comme Turing l’avait prédit en le qualifiant de “jeu d’imitation”, le moyen le plus direct de créer des agents capables d’interagir avec les humains est peut-être l’imitation du comportement humain. De vastes ensembles de données sur le comportement humain combinés à des algorithmes d’apprentissage simulé à partir de ces données ont joué un rôle déterminant dans la création d’agents capables d’interagir avec le langage textuel ou de jouer à des jeux. Pour les interactions linguistiques de base, nous n’avons pas de source de données précédemment disponible pour le comportement, nous avons donc créé un système pour susciter des interactions de participants humains interagissant les uns avec les autres. Ces interactions ont été principalement suscitées en demandant à un joueur d’improviser avec des instructions sur, par exemple, “Demandez à l’autre joueur de mettre quelque chose en relation avec autre chose”. Certains déclencheurs d’interaction incluent des questions en plus des instructions, telles que “Demandez à l’autre joueur de décrire où se trouve quelque chose”. Au total, nous avons collecté plus d’un an d’interactions humaines en temps réel dans cet espace.
L’apprentissage par simulation, l’apprentissage par renforcement et l’apprentissage supplémentaire (qui consiste en un apprentissage de rôle supervisé et non supervisé) sont combinés en une forme d’auto-jeu interactif qui est cruciale pour créer nos meilleurs agents. Ces clients peuvent suivre les commandes et répondre aux questions. Nous appelons ces agents “analyseurs”. Mais nos clients peuvent aussi passer des commandes et poser des questions. Nous appelons ces clients des “colons”. Les messages posent de manière interactive des problèmes aux analystes pour produire de meilleurs matériaux de solution. Cependant, une fois les agents formés, les humains peuvent jouer le rôle de sélecteurs et interagir avec les agents de solution.
Nos interactions ne peuvent pas être évaluées de la même manière que la plupart des problèmes simples d’apprentissage par renforcement. Il n’y a pas de notion de gagner ou de perdre, par exemple. En effet, communiquer avec le langage tout en partageant l’environnement physique introduit un nombre surprenant de concepts abstraits et ambigus. Par exemple, si un poseur demande à un analyste de placer une chose près d’une autre, qu’est-ce qui est exactement « proche » ? Mais l’évaluation précise des modèles entraînés dans des environnements standardisés est la pierre angulaire de l’apprentissage automatique et de l’intelligence artificielle modernes. Pour nous adapter à ce contexte, nous avons développé une variété de méthodes d’évaluation pour aider à diagnostiquer et à enregistrer les problèmes avec les agents, y compris simplement en faisant interagir des humains avec les agents dans de grandes expériences.
Un avantage distinct de nos configurations est que les opérateurs humains peuvent attribuer une variété presque infinie de nouvelles tâches via le langage, comprenant rapidement les compétences de nos agents. Il y a trop de tâches qu’ils ne peuvent pas gérer, mais notre approche de la construction de l’IA offre une voie claire vers l’amélioration à travers un ensemble croissant de compétences. Nos méthodes sont générales et peuvent être appliquées partout où nous avons besoin d’agents interagissant avec des environnements et des personnes complexes.