Apprendre à séparer les actions de l'observation et de la narration

Les tâches complexes que les gens accomplissent dans le monde, par exemple Faire des crêpescomporte plusieurs étapes d’action (par exemple, Verser le mélange, remuer la crêpe et retirer la crêpe), qui est organisé. Lorsque nous observons des personnes effectuer des tâches, nous prenons conscience du début et de la fin des étapes d’action (Verser la pâte maintenant, Retourner la crêpe plus tard), en distinguant les étapes importantes des étapes sans importance. Définir les étapes d’action critiques et les relier à des périodes de temps est connu sous le nom de Fragmentation du travail, qui est un processus crucial pour la cognition et la planification humaines. Lorsque les gens, et les enfants en particulier, apprennent à diviser les actions, ils s’appuient sur un certain nombre d’indices, y compris les descriptions données par la personne qui exécute la tâche (“Maintenant, je vais tout déplacer”..) et la systématique structurelle dans le tâche (mélanger les ingrédients). Cela se produit généralement après l’ajout des ingrédients).

Dans ce travail, qui s’inspire de la façon dont les gens apprennent la division des actions, nous examinons l’efficacité des descriptions linguistiques et de la régularité des tâches dans l’amélioration des systèmes de division des actions. La segmentation des actions est une première étape importante du traitement et du catalogage des vidéos : savoir quelles actions se produisent et à quel moment facilite la recherche de vidéos et de fragments vidéo associés à partir d’une vaste collection sur le Web. Cependant, les méthodes standard d’apprentissage automatique supervisé pour prédire les segments d’action dans les vidéos exigent que les vidéos soient annotées sur les segments d’action dans lesquels elles se produisent. Comme ces annotations seraient coûteuses et difficiles à collecter, nous nous y intéressons Surveillance faible Segmentation de procédure : formation sans segments de procédure annotés.

Nous nous concentrons sur un ensemble de données stimulantes de vidéos pédagogiques extraites de YouTube (CrossTask, Zhukov et al., 2019), qui comprend des tâches ménagères quotidiennes telles que la cuisine et l’assemblage de meubles. Bien qu’elles se produisent naturellement, ces vidéos consistent en des tâches qui ont une certaine organisation structurelle à travers les vidéos et ont des descriptions linguistiques (transcriptions du récit d’une personne), qui fournissent toutes deux une ressource bruyante pour une mauvaise supervision. Nous développons un modèle de segmentation d’action flexible et non supervisé qui peut être formé sans étiquettes d’action, et éventuellement cette supervision faible peut être utilisée à partir de Régularité des tâches Et Descriptions de langue. Notre modèle et les modèles de travaux antérieurs bénéficient grandement de ces deux sources de supervision, même en plus des fonctionnalités riches des routines neuronales et des classificateurs d’objets de pointe. On retrouve aussi ce générateur Les modèles de caractéristiques vidéo fonctionnent généralement mieux que les modèles discriminatoires sur la tâche de segmentation.

Nos résultats indiquent que l’utilisation du langage pour guider la segmentation des actions est une direction prometteuse pour les travaux futurs, lorsque les annotations des segments d’action ne sont pas disponibles.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال