Du contrôle moteur à l'intelligence incarnée

Utiliser des mouvements humains et animaux pour apprendre aux robots à dribbler un ballon, simuler des figures humaines pour transporter des cartons et jouer au football

La personnalité humaine apprend à franchir un parcours du combattant par essais et erreurs, ce qui peut conduire à des solutions particulières. Hess et al. Émergence des comportements de mouvement dans les environnements enrichis (2017).

Il y a cinq ans, nous avons relevé le défi d’apprendre à un personnage humain pleinement articulé à réussir des courses d’obstacles. Cela a démontré ce que l’apprentissage par renforcement (RL) peut réaliser par essais et erreurs, mais a également mis en évidence deux défis à la solution incarné Intelligence:

  1. Réutilisation des comportements précédemment appris : Une grande quantité de données était nécessaire pour que l’agent “décolle”. Sans aucune connaissance préalable de la force à appliquer à chacune de ses articulations, l’ouvrier commença par des picotements aléatoires du corps et tomba rapidement au sol. Ce problème peut être atténué en réutilisant des comportements appris précédemment.
  2. Comportements distinctifs : Lorsque l’agent a finalement appris à naviguer sur des parcours d’obstacles, il l’a fait en utilisant des schémas de mouvement non naturels (bien qu’amusants) qui ne seraient pas pratiques pour des applications telles que les robots.

Ici, nous décrivons une solution aux deux défis appelés moteur primitif probabiliste neuronal (NPMP), y compris l’apprentissage dirigé utilisant des modèles de mouvement dérivés d’humains et d’animaux, et discutons de la façon d’utiliser cette approche dans l’article Humanoid Football, publié aujourd’hui dans Science Robotics.

Nous discutons également de la façon dont cette même approche permet la manipulation de la vision humaine du corps entier, comme un corps humain tenant un objet, et le contrôle robotique du monde réel, comme un robot dribble une balle.

Distillation des données dans des pilotes bruts contrôlables par NPMP

Le NPMP est un module de contrôle moteur à usage général qui traduit les intentions motrices à court horizon en signaux de contrôle de bas niveau, et est formé hors ligne ou via RL en simulant des données de capture de mouvement (MoCap), enregistrées à l’aide de trackers sur des humains ou des animaux exécutant des gestes de intérêt.

Un agent d’apprentissage pour imiter la trajectoire MoCap (en gris).

Le formulaire est composé de deux parties :

  1. Un encodeur prend une voie réceptive et la comprime en une intention cinétique.
  2. Un contrôleur de bas niveau produit l’action suivante en fonction de l’état actuel de l’opérateur et de cette intention du moteur.
Notre modèle NPMP distille d’abord les données de référence dans un contrôleur de bas niveau (à gauche). Ce contrôleur de bas niveau peut ensuite être utilisé comme contrôleur de moteur plug-and-play dans une nouvelle tâche (à droite).

Après la formation, le contrôleur de bas niveau peut être réutilisé pour apprendre de nouvelles tâches, et le contrôleur de haut niveau est optimisé pour produire directement l’intention du moteur. Cela permet une exploration efficace – des comportements cohérents sont produits, même avec des intentions motrices aléatoires – et contraint la solution finale.

Coordination de l’équipe émergente dans le football humain

Le football est depuis longtemps un défi de la recherche sur l’intelligence incarnée, nécessitant des compétences individuelles et un jeu d’équipe coordonné. Dans nos travaux récents, nous avons utilisé le NPMP comme étape préalable pour guider l’apprentissage des habiletés motrices.

Le résultat a été une équipe de joueurs qui ont progressé de l’apprentissage des techniques de poursuite du ballon à l’apprentissage de la coordination. Auparavant, dans une étude avec de simples avatars, nous avons montré que des comportements coordonnés peuvent émerger dans des équipes qui se font concurrence. Le NPMP nous a permis d’observer un effet similaire mais dans un scénario nécessitant un contrôle moteur plus avancé.

Les clients imitent d’abord le mouvement des joueurs de football pour apprendre le module NPMP (ci-dessus). Avec NPMP, les agents acquièrent des compétences spécifiques au football (en bas).

Nos agents ont acquis des compétences telles que la fluidité des mouvements, les passes et la division du travail, comme en témoignent une série de statistiques, y compris des mesures utilisées dans les analyses sportives du monde réel. Les joueurs affichent à la fois un contrôle moteur à haute fréquence et une prise de décision à long terme qui implique d’anticiper les comportements de leurs coéquipiers, ce qui se traduit par un jeu d’équipe coordonné.

Un agent apprend à jouer au football de manière compétitive à l’aide de Multi-Agent RL.


Manipulation du corps entier des tâches cognitives à l’aide de la vision

Apprendre à interagir avec des objets à l’aide des bras est un autre défi de contrôle difficile. Le NPMP peut également permettre ce type de manipulation du corps entier. En utilisant une petite quantité de données MoCap pour interagir avec les boîtes, nous pouvons entraîner un agent à transporter une boîte d’un endroit à un autre, en utilisant une vision égocentrique et avec seulement quelques indices de récompense :

En utilisant une petite quantité de données MoCap (en haut), notre approche NPMP peut résoudre la tâche de transport de boîtes (en bas).

De même, nous pouvons apprendre au croupier comment attraper et lancer des balles :

Simulation d’attraper et de lancer une balle.

Avec NPMP, nous pouvons également nous attaquer à des tâches de labyrinthe qui impliquent le mouvement, la perception et la mémoire :

Une simulation humaine collectant des boules bleues dans un labyrinthe.

Contrôle sûr et efficace de robots réalistes

NPMP peut également aider à contrôler de vrais robots. Avoir un comportement bien structuré est crucial pour des activités telles que la marche sur un terrain accidenté ou la manipulation d’objets fragiles. Les mouvements saccadés peuvent endommager le robot lui-même ou son environnement, ou au moins vider sa batterie. Par conséquent, des efforts importants sont souvent investis dans la conception d’objectifs d’apprentissage qui obligent le robot à faire ce que nous voulons qu’il fasse tout en se comportant de manière sûre et efficace.

Comme alternative, nous avons cherché à savoir si l’utilisation de bourgeons biologiques dérivés du mouvement pouvait nous donner des compétences de mouvement bien structurées, d’apparence naturelle et réutilisables de robots à pattes, telles que la marche, la course et la rotation adaptées au déploiement sur des robots du monde réel. .

En partant des données MoCap d’humains et de chiens, nous avons adapté l’approche NPMP pour former des compétences et des contrôleurs simulés qui peuvent ensuite être déployés sur de vrais robots (OP3) et quadrupèdes (ANYmal B), respectivement. Cela permettait à l’utilisateur de diriger les robots via un joystick ou de dribbler le ballon vers un emplacement cible d’une manière naturelle et puissante.

Les habiletés motrices de tout robot sont apprises en imitant le chien MoCap.
Les compétences de mouvement peuvent ensuite être réutilisées pour la marche et le dribble contrôlés.

Les avantages de l’utilisation d’alternatives motrices neuroprobabilistes

En résumé, nous avons utilisé le modèle de compétences NPMP pour apprendre des tâches complexes avec des personnages humains dans des simulations et des robots du monde réel. Le NPMP regroupe les habiletés motrices de bas niveau de manière réutilisable, ce qui facilite l’apprentissage de comportements bénéfiques difficiles à découvrir par des essais et des erreurs non structurés. En utilisant la capture de mouvement comme source d’informations préalables, il oriente l’apprentissage du contrôle moteur vers les mouvements naturels.

NPMP permet aux agents incarnés d’apprendre plus rapidement en utilisant RL ; apprendre des comportements plus naturels; Pour en savoir plus sur les comportements sûrs, efficaces et stables appropriés pour les bots dans le monde réel ; et combiner le contrôle moteur de tout le corps avec des compétences cognitives à plus long terme, telles que le travail d’équipe et la coordination.

En apprendre plus sur notre travail:

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال