Apprendre à une machine à reconnaître les actions humaines a de nombreuses applications potentielles, comme détecter automatiquement des ouvriers tombés sur un chantier de construction ou permettre à un robot domestique intelligent d’interpréter les gestes d’un utilisateur.
Pour ce faire, les chercheurs forment des modèles d’apprentissage automatique à l’aide d’énormes ensembles de données de vidéos qui montrent des humains en train d’effectuer des actions. Cependant, la collecte et la catégorisation de millions ou de milliards de vidéos sont non seulement coûteuses et fastidieuses, mais les clips contiennent souvent des informations sensibles, telles que les visages des personnes ou les numéros de plaque d’immatriculation. L’utilisation de ces vidéos peut également enfreindre les lois sur le droit d’auteur ou la protection des données. Cela suppose que les données vidéo sont principalement accessibles au public – de nombreux ensembles de données appartiennent à des entreprises et ne sont pas libres d’utilisation.
Par conséquent, les chercheurs se tournent vers des ensembles de données synthétiques. Ils sont créés par un ordinateur qui utilise des modèles 3D de scènes, d’objets et d’humains pour produire rapidement de nombreux clips divers d’actions spécifiques – sans les problèmes de droits d’auteur potentiels ou les préoccupations éthiques qui accompagnent les données réelles.
Mais les données synthétiques sont-elles aussi « bonnes » que les données réelles ? Dans quelle mesure un modèle entraîné avec ces données fonctionne-t-il lorsqu’on lui demande de classer des actions humaines réelles ? Une équipe de chercheurs du MIT, du MIT-IBM Watson AI Lab et de l’Université de Boston a cherché à répondre à cette question. Ils ont construit un ensemble de données synthétiques de 150 000 vidéos qui ont capturé un large éventail d’actions humaines, qu’ils ont utilisé pour former des modèles d’apprentissage automatique. Ils ont ensuite montré à ces modèles six ensembles de données provenant de clips vidéo réels pour voir dans quelle mesure ils pouvaient reconnaître les actions dans ces clips.
Les chercheurs ont constaté que les modèles entraînés synthétiquement fonctionnaient mieux que les modèles entraînés sur des données réelles pour les vidéos avec moins d’objets d’arrière-plan.
Ce travail peut aider les chercheurs à utiliser des ensembles de données synthétiques de manière à ce que les modèles atteignent une plus grande précision dans les tâches du monde réel. Cela pourrait également aider les scientifiques à déterminer quelles applications d’apprentissage automatique sont les mieux adaptées à la formation avec des données synthétiques, dans le but d’atténuer certaines des préoccupations éthiques, de confidentialité et de droit d’auteur liées à l’utilisation d’ensembles de données réels.
“Le but ultime de notre recherche est de remplacer la pré-formation sur des données réelles par une pré-formation sur des données synthétiques. Il y a un coût à créer une action dans des données synthétiques, mais une fois que vous faites cela, vous pouvez créer un nombre illimité d’images. ou des vidéos en changeant la pose, l’éclairage, etc. Et c’est la beauté des données synthétiques », déclare Rogerio Ferris, scientifique principal et directeur du MIT-IBM Watson AI Lab, et co-auteur d’un article détaillant cette recherche.
Cet article a été écrit par l’auteur principal Yo-whan “John” Kim ’22; Aud Oliva, directeur de l’engagement stratégique de l’industrie au MIT Schwarzman Computing, directeur du MIT-IBM Watson AI Lab et chercheur principal au laboratoire d’informatique et d’intelligence artificielle (CSAIL); et sept autres. La recherche sera présentée à la conférence Neural Information Processing Systems.
Construire un ensemble de données synthétiques
Les chercheurs ont commencé à assembler un nouvel ensemble de données en utilisant trois ensembles de données accessibles au public de clips vidéo synthétiques qui capturaient les actions humaines. Leur ensemble de données, appelé Synthetic Action Pre-Training and Transformation (SynAPT), contient 150 classes d’action, avec 1 000 vidéos pour chaque catégorie.
Ils ont choisi autant de catégories de mouvement que possible, telles que des personnes agitant ou tombant au sol, en fonction de la disponibilité de clips avec des données vidéo propres.
Une fois l’ensemble de données configuré, ils l’ont utilisé pour pré-tester trois modèles d’apprentissage automatique pour la reconnaissance des actions. La pré-formation consiste à former un modèle pour une tâche afin de lui donner une longueur d’avance sur l’apprentissage d’autres tâches. Inspiré par la façon dont les gens apprennent – nous réutilisons les anciennes connaissances lorsque nous apprenons quelque chose de nouveau – un modèle pré-entraîné peut utiliser les paramètres qu’il a déjà appris pour l’aider à apprendre une nouvelle tâche avec un nouvel ensemble de données plus rapidement et plus efficacement.
Ils ont testé les modèles pré-formés à l’aide de six ensembles de données provenant de clips vidéo réels, chacun capturant des classes d’actions différentes de celles des données de formation.
Les chercheurs ont été surpris de voir que les trois modèles synthétiques surpassaient les modèles entraînés avec de vraies vidéos sur quatre des six ensembles de données. Sa précision était plus élevée pour les ensembles de données contenant des vidéos avec un faible “biais d’objet de scène”.
Un biais d’objet de scène faible signifie que le modèle ne peut pas apprendre l’action en regardant l’arrière-plan ou d’autres objets de la scène – il doit se concentrer sur l’action elle-même. Par exemple, si un modèle est chargé d’évaluer les positions de plongée dans des vidéos de personnes plongeant dans une piscine, il ne pourra pas déterminer une position en regardant l’eau ou les carreaux sur un mur. Vous devez vous concentrer sur le mouvement et la position de la personne pour classer l’action.
“Dans les vidéos à faible biais de scène corporelle, la dynamique temporelle des actions est plus importante que l’apparence des objets ou l’arrière-plan, et elles semblent être bien capturées avec les données de composition”, explique Ferris.
“Un biais de scène élevé peut en fait être un obstacle. Le modèle peut mal classer une action en regardant un objet, pas l’action elle-même. Cela peut confondre le modèle”, explique Kim.
Augmentation des performances
Sur la base de ces résultats, les chercheurs souhaitent inclure davantage de classes d’actions et de plates-formes vidéo synthétiques supplémentaires dans les travaux futurs, et éventuellement créer un catalogue de modèles précédemment testés à l’aide de données synthétiques, déclare le co-auteur Rameswar Panda, membre de l’équipe de recherche du MIT. . IBM Watson AI Lab.
“Nous voulons construire des modèles qui ont des performances très similaires ou même meilleures que les modèles de la littérature, mais sans être liés par aucun de ces biais ou problèmes de sécurité”, ajoute-t-il.
Ils souhaitent également combiner leur travail avec des recherches visant à produire des vidéos synthétiques plus précises et réalistes, ce qui peut améliorer les performances des modèles, explique SouYoung Jin, co-auteur et co-auteur de CSAIL. Elle souhaite également explorer comment les modèles peuvent apprendre différemment lorsqu’ils sont entraînés à l’aide de données synthétiques.
“Nous utilisons des ensembles de données synthétiques pour éviter les problèmes de confidentialité ou de biais contextuels ou sociaux, mais qu’est-ce que le modèle apprend réellement ? Est-ce qu’il enseigne quelque chose d’impartial ?”, dit-elle.
Maintenant qu’ils ont montré la possibilité d’utiliser des vidéos synthétiques, ils espèrent que d’autres chercheurs pourront s’appuyer sur leurs travaux.
“Bien que le coût d’obtention de données synthétiques bien annotées ait diminué, nous ne disposons pas actuellement d’un ensemble de données d’une échelle qui rivalise avec les plus grands ensembles de données annotées avec de vraies vidéos. En discutant des différents coûts et préoccupations avec de vraies vidéos, et en démontrant l’efficacité des données synthétiques, nous espérons stimuler les efforts dans cette direction », ajoute le co-auteur Samarth Mishra, étudiant diplômé à l’Université de Boston (BU).
Les co-auteurs supplémentaires incluent Hilde Kuehne, professeur d’informatique à l’Université Goethe en Allemagne et professeur associé au MIT-IBM Watson AI Lab. Leonid Karlinsky, membre de l’équipe de recherche du MIT-IBM Watson AI Lab ; Venkatesh Saligrama, professeur au Département de génie électrique et informatique de l’Université de Boston. et Kate Sinko, professeure adjointe au département d’informatique de l’Université de Boston et professeure consultante au MIT-IBM Watson AI Lab.
Cette recherche a été soutenue par la Defense Advanced Research Projects Agency, LwLL, ainsi que par le MIT-IBM Watson AI Lab et ses sociétés membres, Nexplore et Woodside.