Mesure de la cognition dans les modèles d'intelligence artificielle

Une nouvelle référence pour l’évaluation des systèmes multimédias basée sur des données vidéo, audio et textuelles du monde réel

Du test de Turing à ImageNet, les normes ont contribué à façonner l’intelligence artificielle (IA) en aidant à définir les objectifs de recherche et en permettant aux chercheurs de mesurer les progrès vers ces objectifs. Des avancées incroyables au cours des 10 dernières années, telles qu’AlexNet dans la vision par ordinateur et AlphaFold dans le repliement des protéines, ont été étroitement liées à l’utilisation d’ensembles de données modulaires, permettant aux chercheurs de ranger les choix de conception et de formation des modèles, et les itérations pour améliorer leurs modèles. Alors que nous travaillons à l’objectif de construire une intelligence artificielle générale (AGI), le développement de normes robustes et efficaces qui étendent les capacités des modèles d’IA est tout aussi important que le développement des modèles eux-mêmes.

La perception – le processus d’expérience du monde à travers les sens – est une partie importante de l’intelligence. Construire des agents avec une compréhension cognitive du monde au niveau humain est une tâche essentielle mais difficile, qui devient de plus en plus importante dans la robotique, les voitures autonomes, les assistants personnels, l’imagerie médicale, etc. Alors aujourd’hui, nous vous apportons un fichier Test de perceptionune référence multimédia qui utilise des vidéos du monde réel pour aider à évaluer les capacités de perception d’un modèle.

Développer une norme de perception

Plusieurs critères liés à la cognition sont actuellement utilisés dans la recherche sur l’IA, tels que Kinetics pour reconnaître l’action vidéo, Audioset pour classer les événements audio, MOT pour le suivi d’objets ou VQA pour répondre aux questions d’image. Ces normes ont conduit à des avancées étonnantes dans la construction et le développement des architectures de modèles d’IA et des méthodes de formation, mais chacune d’entre elles ne cible que des aspects limités de la cognition : les normes d’image excluent les aspects temporels ; Répondre à des questions visuelles tend à se concentrer sur la compréhension du paysage sémantique de niveau supérieur ; Les tâches de suivi d’objet capturent généralement l’apparence de bas niveau d’objets individuels, comme la couleur ou la texture. Il existe très peu de normes qui définissent les tâches sur les deux modes audiovisuels.

Les modèles multimodaux, tels que Perceiver, Flamingo ou BEiT-3, sont destinés à être des modèles plus généraux de cognition. Mais leurs évaluations étaient basées sur de multiples ensembles de données spécialisés car aucun critère dédié n’était disponible. Ce processus est lent, coûteux et offre une couverture incomplète des capacités cognitives générales telles que la mémoire, ce qui rend difficile pour les chercheurs de comparer les méthodes.

Pour résoudre bon nombre de ces problèmes, nous avons créé un ensemble de données de vidéos d’activités du monde réel conçues à dessein, classées en six types de tâches différents :

  1. suivi d’objet : Une boîte est fournie autour d’un objet au début de la vidéo, le modèle doit retourner un chemin complet à travers toute la vidéo (y compris à travers les blocages).
  2. Suivi des points : Un point est identifié au début de la vidéo, le modèle doit suivre le point tout au long de la vidéo (également à travers les occlusions).
  3. Localisation du temps de travail : Le modèle doit compiler et compiler temporellement un ensemble prédéfini d’actions.
  4. Localisation audio temporelle : Le modèle doit traduire et classer temporellement un ensemble prédéterminé de sons.
  5. Répondre aux questions vidéo à choix multiples : Questions textuelles sur la vidéo, chacune avec trois choix pour sélectionner la réponse.
  6. Réponse aux questions vidéo : Questions textuelles sur la vidéo, le formulaire doit renvoyer le chemin d’un ou plusieurs objets.

Nous nous sommes inspirés de la méthode d’évaluation de la perception des enfants en psychologie du développement, ainsi que d’ensembles de données synthétiques tels que CATER et CLEVRER, et avons conçu 37 scénarios vidéo, chacun avec des variations différentes pour assurer un ensemble de données équilibré. Chaque format a été filmé par au moins douze participants issus de la foule (similaire aux travaux précédents sur Charades et Something-Something), totalisant plus de 100 participants, résultant en 11 609 vidéos, d’une durée moyenne de 23 secondes.

Les vidéos montrent des jeux simples ou des activités quotidiennes, nous permettant d’identifier les tâches qui nécessitent les compétences suivantes pour être résolues :

  • Connaître la sémantique : Testez des aspects tels que la réalisation d’une tâche ou la reconnaissance d’objets, d’actions ou de sons.
  • Compréhension de la physique : Collisions, mouvement, occlusion, relations spatiales.
  • Pensée temporelle ou mémoire : Ordre chronologique des événements, comptage dans le temps et détection des changements dans la scène.
  • Capacités d’abstraction : Appariement de formes, concepts identiques/différents, détection de motifs.

Les participants des sources de foule ont étiqueté les clips vidéo avec des annotations spatio-temporelles (chemins de boîte englobante d’objets, chemins de points, clips de mouvement et clips audio). Notre équipe de recherche a adapté les questions pour chaque type de script à des tâches répondant à des questions vidéo à choix multiples et fondées pour garantir une bonne variété de compétences testées, par exemple, des questions portant sur la capacité de contre-penser ou de fournir des explications pour une situation donnée. Les réponses correspondant à chaque vidéo ont à nouveau été fournies par des participants issus du crowdsourcing.

Évaluation des systèmes multimédias avec un test de perception

Nous supposons que les modèles sont pré-entraînés sur des ensembles de données et des tâches externes. Les tests perceptifs incluent un groupe de réglage fin (20 %) que les créateurs de formulaires peuvent éventuellement utiliser pour transmettre la nature des tâches aux formulaires. Les données restantes (80 %) consistent en une division de validation générale et une division de test détaillée où les performances ne peuvent être évaluées que via notre serveur d’évaluation.

Nous montrons ici un schéma de la configuration d’évaluation : les entrées sont des séquences vidéo et audio, ainsi que des spécifications importantes. La tâche peut se présenter sous la forme d’un texte de haut niveau pour répondre à des questions visuelles ou d’une entrée de bas niveau, telle que les coordonnées d’un cadre de délimitation d’objet pour une tâche de suivi d’objet.

Entrées (vidéo, audio, spécification de tâche sous forme de texte ou autre forme) et sorties de formulaire évaluées par rapport à notre référence.

Les scores d’évaluation sont détaillés dans plusieurs dimensions et nous mesurons les capacités dans les six tâches arithmétiques. Pour les tâches visuelles de questions-réponses, nous fournissons également un aperçu des questions à travers les types de situations décrites dans les vidéos et les types de raisonnement requis pour répondre aux questions pour une analyse plus détaillée (voir notre article pour plus de détails). Un modèle idéal augmenterait les scores sur tous les graphiques radar et toutes les dimensions. Il s’agit d’une évaluation détaillée des compétences du modèle, nous permettant d’affiner les domaines d’amélioration.

Rapport de diagnostic multidimensionnel du modèle cognitif par tâche informatique, région et type de pensée. D’autres diagnostics peuvent être effectués dans des sous-domaines tels que : mouvement, collision, comptage, achèvement d’action, etc.

Assurer la diversité des participants et des scènes présentées dans les vidéos était une considération importante lors de l’élaboration de la norme. Pour ce faire, nous avons sélectionné des participants de différents pays de races et de sexes différents, et notre objectif était d’avoir une représentation diversifiée dans chaque type de script vidéo.

Géolocalisation des participants crowd-sourcés au tournage.

En savoir plus sur le test de perception

Le critère de test de la perception est accessible au public ici et plus de détails sont disponibles dans notre article. Le classement et le serveur de défi seront également bientôt disponibles.

Le 23 octobre 2022, nous organisons un atelier sur les modèles de cognition générale à la Conférence européenne sur la vision par ordinateur à Tel Aviv (ECCV 2022), où nous discuterons de notre approche et de la manière dont nous concevons et évaluons les modèles de perception générale avec d’autres experts de premier plan. Sur le terrain.

Nous espérons que le test cognitif inspirera et orientera d’autres recherches vers des modèles de cognition générale. À l’avenir, nous espérons collaborer avec la communauté de recherche multimédia pour fournir des annotations, des tâches, des métriques ou même de nouveaux langages pour la norme.

Envoyez un e-mail à perception-test@google.com si vous souhaitez contribuer !

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال