Imitation d'intelligence interactive

Il faut répondre à deux questions au début de toute recherche sur l’IA. Que voulons-nous que les systèmes d’IA fassent ? Et comment évaluerons-nous lorsque nous aurons progressé vers cet objectif ? Alan Turing, dans son article fondateur décrivant le test de Turing, qu’il appelait plus modestement le jeu de l’imitation, affirmait que pour un type d’intelligence artificielle donné, ces questions pouvaient être identiques. En gros, si le comportement d’une IA est similaire à celui d’un humain lorsqu’elle interagit avec elle, cela signifie que l’IA a réussi le test et peut être qualifiée d’intelligente. L’IA conçue pour interagir avec les humains doit être testée en interagissant avec les humains.

En même temps, l’interaction n’est pas seulement un test d’intelligence mais aussi le but. Pour que les agents IA soient généralement utiles, ils doivent nous assister dans diverses activités et communiquer normalement avec nous. Dans la science-fiction, voir des robots avec qui on peut parler est un phénomène courant. Des agents numériques intelligents qui peuvent aider à accomplir un grand nombre de tâches seront très utiles. Pour faire de ces dispositifs une réalité, nous devons étudier le problème de la création d’agents capables d’interagir efficacement avec les humains et de produire des actions dans un monde riche.

Les agents de construction qui peuvent interagir avec les humains et le monde posent un certain nombre de défis importants. Comment pouvons-nous fournir des signaux d’apprentissage appropriés pour enseigner de telles capacités aux agents artificiels ? Comment évaluer la performance des agents que nous développons alors que le langage lui-même est si vague et abstrait ? Étant donné que la soufflerie concerne la conception d’avions, nous avons créé un environnement virtuel pour rechercher comment fabriquer des réactifs.

Nous créons d’abord un environnement simulé, la salle de jeux, où les robots virtuels peuvent s’engager dans une variété d’interactions intéressantes en se déplaçant, en manipulant des objets et en se parlant. Les dimensions de la salle de jeux peuvent être sélectionnées au hasard, ainsi que personnalisées pour les étagères, les meubles, les fonctionnalités telles que les fenêtres et les portes, et une variété de jouets pour enfants et d’articles ménagers. La diversité de l’environnement permet des interactions qui impliquent une réflexion sur les relations de l’espace et des objets, l’ambiguïté des références, le confinement, la construction, le support, l’occlusion et l’observation partielle. Nous avons inclus deux travailleurs de la salle de jeux pour fournir une dimension sociale à l’étude de l’intention partagée, de la collaboration, de la communication des connaissances privées, etc.

Les agents interagissent dans la salle de jeux. L’agent Blue ordonne à l’agent Yellow de “mettre l’hélicoptère dans la caisse”.
Randomisez la salle de jeux pour créer de la diversité dans la collecte de données.

Nous exploitons une gamme de modèles d’apprentissage pour créer des agents qui peuvent interagir avec les humains, y compris l’apprentissage simulé, l’apprentissage par renforcement, l’apprentissage supervisé et l’apprentissage non supervisé. Comme Turing l’avait prédit en le qualifiant de “jeu d’imitation”, le moyen le plus direct de créer des agents capables d’interagir avec les humains est peut-être l’imitation du comportement humain. De vastes ensembles de données sur le comportement humain combinés à des algorithmes d’apprentissage simulé à partir de ces données ont joué un rôle déterminant dans la création d’agents capables d’interagir avec le langage textuel ou de jouer à des jeux. Pour les interactions linguistiques de base, nous n’avons pas de source de données précédemment disponible pour le comportement, nous avons donc créé un système pour susciter des interactions de participants humains interagissant les uns avec les autres. Ces interactions ont été principalement suscitées en demandant à un joueur d’improviser avec des instructions sur, par exemple, “Demandez à l’autre joueur de mettre quelque chose en relation avec autre chose”. Certains déclencheurs d’interaction incluent des questions en plus des instructions, telles que “Demandez à l’autre joueur de décrire où se trouve quelque chose”. Au total, nous avons collecté plus d’un an d’interactions humaines en temps réel dans cet espace.

Nos deux agents consomment des images et du langage comme entrées et produisent des actions physiques et des actions langagières comme sorties. Nous avons construit les modèles de récompense avec les mêmes spécifications que les entrées.
À gauche : au cours de deux minutes d’interaction, les deux joueurs (passeur et résolveur) se déplacent, regardent autour d’eux, attrapent et déposent des objets et parlent. À droite : l’installateur est invité à “demander à l’autre joueur de soulever quelque chose”. Ordonne à l’agent de solutions de “soulever l’avion devant la table à manger”. Le solveur trouve l’objet correct et termine la tâche.

L’apprentissage par simulation, l’apprentissage par renforcement et l’apprentissage supplémentaire (qui consiste en un apprentissage de rôle supervisé et non supervisé) sont combinés en une forme d’auto-jeu interactif qui est cruciale pour créer nos meilleurs agents. Ces clients peuvent suivre les commandes et répondre aux questions. Nous appelons ces agents “analyseurs”. Mais nos clients peuvent aussi passer des commandes et poser des questions. Nous appelons ces clients des “colons”. Les messages posent de manière interactive des problèmes aux analystes pour produire de meilleurs matériaux de solution. Cependant, une fois les agents formés, les humains peuvent jouer le rôle de sélecteurs et interagir avec les agents de solution.

À partir de présentations humaines, nous formons des politiques en utilisant une combinaison d’apprentissage supervisé (clonage comportemental), en inversant le RL pour déduire des paradigmes de récompense et en redirigeant le RL pour améliorer les politiques en utilisant le paradigme de récompense inféré. Nous utilisons des tâches auxiliaires semi-supervisées pour aider à façonner les représentations des paradigmes de politique et de récompense.
L’agent de configuration dit à l’agent de solution de “prendre le robot blanc et de le mettre sur le lit”. L’agent de solution trouve le bot et fait le travail. La fonction de récompense apprise à partir des démos capture les aspects clés de la tâche (bleu) et donne une récompense inférieure (gris) lorsque le même retour est combiné avec l’instruction contrefactuelle, “Prends le robot rouge et mets-le au lit”.

Nos interactions ne peuvent pas être évaluées de la même manière que la plupart des problèmes simples d’apprentissage par renforcement. Il n’y a pas de notion de gagner ou de perdre, par exemple. En effet, communiquer avec le langage tout en partageant l’environnement physique introduit un nombre surprenant de concepts abstraits et ambigus. Par exemple, si un poseur demande à un analyste de placer une chose près d’une autre, qu’est-ce qui est exactement « proche » ? Mais l’évaluation précise des modèles entraînés dans des environnements standardisés est la pierre angulaire de l’apprentissage automatique et de l’intelligence artificielle modernes. Pour nous adapter à ce contexte, nous avons développé une variété de méthodes d’évaluation pour aider à diagnostiquer et à enregistrer les problèmes avec les agents, y compris simplement en faisant interagir des humains avec les agents dans de grandes expériences.

Les humains ont évalué la performance des agents et des autres humains dans l’exécution des instructions dans la salle de jeux sur les tâches de suivre les instructions et de répondre aux questions. Les proxys configurés de manière aléatoire ont réussi 0 % du temps. Un travailleur formé au clonage comportemental supervisé seul (b) a obtenu de meilleurs résultats, environ 10 à 20 % du temps. Les agents formés aux tâches assistées semi-supervisées (B A) ont obtenu de meilleurs résultats. Ceux formés avec un apprentissage supervisé, semi-supervisé et par renforcement utilisant un jeu interactif ont été jugés plus performants (BG A & BGR A).

Un avantage distinct de nos configurations est que les opérateurs humains peuvent attribuer une variété presque infinie de nouvelles tâches via le langage, comprenant rapidement les compétences de nos agents. Il y a trop de tâches qu’ils ne peuvent pas gérer, mais notre approche de la construction de l’IA offre une voie claire vers l’amélioration à travers un ensemble croissant de compétences. Nos méthodes sont générales et peuvent être appliquées partout où nous avons besoin d’agents interagissant avec des environnements et des personnes complexes.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال