Meta AI présente GenAug : un nouveau système qui utilise des modèles Text2Image pour permettre aux robots de transférer des comportements sans prise de vue d'une scène simple à des scènes invisibles de complexité variable

Les techniques d’apprentissage robotique ont la capacité de se généraliser à un large éventail de tâches, de paramètres et d’objets. Malheureusement, ces stratégies nécessitent des ensembles de données étendus et diversifiés, difficiles et coûteux à obtenir dans des contextes robotiques pratiques. La généralisabilité dans l’apprentissage des robots nécessite l’accès à des données antérieures ou à des données extérieures à l’environnement immédiat du robot.

L’augmentation des données est un outil utile pour améliorer la généralisabilité d’un modèle. Mais la plupart des méthodes fonctionnent dans un espace visuel de bas niveau, modifiant les données de manière telle que le bruit de couleur, le bruit gaussien et l’écrêtage. Cependant, ils sont toujours incapables de gérer des nuances sémantiques importantes dans une image, telles que la distraction, des arrière-plans différents ou l’apparence d’objets différents.

GenAug est un cadre d’augmentation de données sémantiques développé par l’Université de Washington et Meta AI qui utilise des modèles texte-image pré-formés pour faciliter l’apprentissage basé sur l’imitation dans des robots pratiques. Les modèles génératifs pré-entraînés ont accès à un ensemble de données beaucoup plus vaste et diversifié que les données d’un bot. Cette recherche utilise ces modèles génératifs pour compléter les données lors de la formation de robots réels dans le monde réel. Cette étude est basée sur la croyance intuitive que, malgré les différences de décor, d’arrière-plan et d’apparence des objets, les méthodes d’accomplissement d’une tâche dans un environnement devraient généralement être transférables à la même tâche dans différentes situations.

🚨 Lisez notre dernière newsletter AI🚨

Un modèle génératif peut générer des situations visuelles très différentes, avec de nombreux arrière-plans et apparences d’éléments sous lesquels le même comportement reste en vigueur. Dans le même temps, une quantité limitée d’expérience sur le bot fournit des explications sur le comportement souhaité. De plus, ces modèles génératifs sont formés sur des données du monde réel, de sorte que les scènes générées semblent réalistes et varient. Ce faisant, une grande partie de la sémantique peut être générée facilement et à moindre coût à partir d’un nombre limité de démos, donnant à l’agent d’apprentissage l’accès à des paramètres beaucoup plus variés que le simple affichage de données sur le robot.

GenAug peut générer des images RGBD “augmentées” d’un environnement photoréaliste complètement nouveau, démontrant le réalisme visuel et la complexité des scénarios qu’un robot pourrait rencontrer dans le monde réel, étant donné un ensemble de données d’exemples d’images animées disponibles sur un système de robot réel. Plus précisément, pour les robots qui effectuent des tâches de manipulation de table, GenAug utilise des invites de langage avec un modèle génératif pour modifier les textures et les formes des éléments, ajouter de nouveaux éléments distrayants et des scènes d’arrière-plan qui sont physiquement cohérentes avec la scène d’origine.

Les chercheurs montrent que les capacités de généralisation des méthodes d’apprentissage simulées sont grandement améliorées par l’entraînement sur cet ensemble de données renforcé linguistiquement, même s’il ne contient que 10 démonstrations du monde réel collectées en un seul endroit. Selon les résultats, GenAug peut augmenter l’entraînement du robot de 40 % par rapport aux méthodes traditionnelles, permettant au robot de s’entraîner dans des endroits et des objets qu’il n’a jamais vus auparavant.

L’équipe prévoit d’appliquer GenAug dans d’autres domaines de l’apprentissage des robots, tels que la reproduction du comportement et l’apprentissage par renforcement, et de contourner les problèmes de manipulation plus difficiles. Les chercheurs pensent que ce serait une excellente approche future pour déterminer si une combinaison de paradigmes de langage, de vision et de langage pourrait fournir des générateurs de scènes remarquables.


scanner le papier Et projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Tanushree Shenwai est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son baccalauréat en technologie de l’Indian Institute of Technology (IIT), Bhubaneswar. Elle est passionnée par la science des données et a un vif intérêt pour le champ d’application de l’intelligence artificielle dans divers domaines. Elle est passionnée par l’exploration des nouveaux développements technologiques et de leurs applications dans le monde réel.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال