Qu'est-ce qui contribue le plus au succès des convertisseurs multimédia ?

La capacité à fonder le langage sur la vision est un aspect essentiel des systèmes d’IA du monde réel ; Il est utile dans une gamme de tâches (Par exempleet répondre à des questions visuelles) et applications (Par exempleet générer des descriptions pour les aveugles). Les modèles multimodaux (pré-entraînés sur les paires image-langage) visent à résoudre ce problème d’enracinement. Un groupe récent de modèles, les adaptateurs multimodaux (par exemple, Lu et al., 2019 ; Chen et al., 2020 ; Tan et Bansal, 2019 ; Li et al., 2020), ont amélioré les performances sur une gamme de repères multimodaux. , indiquant que l’architecture de co-encodeur est mieux adaptée pour capturer les alignements entre les paires de langage d’image que les approches précédentes (telles que les encodeurs doubles).

En particulier, par rapport à l’architecture à double codeur où il n’y a pas de chevauchement entre les modalités, les convertisseurs multimodaux (co-codeurs) sont plus efficaces en termes d’échantillonnage. Dans le graphique ci-dessous, nous voyons que lorsqu’il est testé sur la récupération d’images non prises, le convertisseur multimodal actuel (UNITER) fonctionne de la même manière qu’un encodeur à double bande large (CLIP) qui est formé sur 100 fois plus de données.

BOW-DE : Miech & Alayrac et al. Arxiv 2021, MMT : Hendricks et al. TACL 2021, Module : Chen et al. ECCV 2020, CLIP : Radford et al. Arxiv 2021, ALIGN : Jia et al. Arxiv 2021

Dans ce travail, nous examinons quels aspects des adaptateurs multimodaux – attention, pertes et données de pré-formation – sont importants pour leur succès dans la pré-formation multimodale. Nous constatons que l’attention multimodale, où les transducteurs de langage et d’image sont concernés les uns par les autres, est essentielle au succès de ces modèles. Les modèles avec d’autres types d’intérêt (même avec plus de profondeur ou de paramètres) ne parviennent pas à produire des résultats similaires aux modèles moins profonds et plus petits avec un intérêt multimodal. De plus, des résultats comparables peuvent être obtenus sans perte d’image (modélisation des zones masquées) initialement proposé pour les convertisseurs multimodaux. Cela indique que nos modèles actuels ne tirent pas parti du signal utile dans la méthode d’image, peut-être en raison de la formulation avec perte de l’image.

Nous étudions également différentes propriétés des jeux de données multimodaux telles que leur taille et la mesure dans laquelle le langage décrit leur image correspondante (bruit). Nous constatons que la taille de l’ensemble de données ne prédit pas toujours les performances des convertisseurs multimédia ; Le niveau de bruit et la similitude du langage avec la tâche d’évaluation sont deux facteurs contributifs importants. Celles-ci soulignent l’importance de conserver des ensembles de données textuelles moins intrusives malgré la tendance actuelle à récolter des ensembles de données bruyants sur le Web.

Dans l’ensemble, notre analyse montre que les commutateurs multimodaux sont plus puissants que la construction à double codeur (étant donné la même quantité de données de pré-formation), principalement en raison de la diaphonie via l’attention multimodale. Cependant, il reste encore de nombreux problèmes ouverts lors de la conception de modèles multimodaux, notamment de meilleures pertes de méthode d’image et la force du bruit des ensembles de données.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال