Découvrez LAMPP : une nouvelle approche d'intelligence artificielle du MIT pour intégrer les connaissances de base du langage dans les problèmes de prise de décision en extrayant des introductions probabilistes à partir de modèles de langage

Les prémisses de bon sens sont essentielles pour prendre des décisions dans des conditions d’incertitude dans des situations réelles. Supposons qu’ils souhaitent attribuer des étiquettes au scénario de la figure 1. Avec la familiarité avec certains des éléments de base, il devient clair que l’image montre un cycle de l’eau. Cela aide à résoudre certaines affiches pour des choses plus difficiles, telles que le rideau de douche dans la scène au lieu du rideau de fenêtre et le miroir au lieu de l’image sur le mur. En plus des tâches visuelles, une connaissance préalable de l’élément ou des événements communs attendus est essentielle pour naviguer dans de nouveaux environnements et comprendre les actions des autres agents. De plus, ces attentes sont essentielles pour la classification des objets et la compréhension en lecture.

Figure 1 : Dans LAMPP, le modèle d’observation LM et le modèle d’observation spécifique à la tâche fournissent a priori un espace d’étiquettes structuré, P(Y, Y0) et P(X|Y), respectivement. Ils utilisent LAMPP pour trois tâches spécifiques, notamment la reconnaissance de travail vidéo et la segmentation d’images. * En termes de segmentation d’image, le LM présélectionne les éléments les plus susceptibles de se produire simultanément (en fonction des probabilités de l’objet de la pièce), ce qui lui permet d’identifier le rideau observé comme un rideau de douche. Il donne au LM un a priori sur la séquence d’action susceptible de compléter les tâches de la cible dans l’exemple de reconnaissance d’action, lui permettant de déduire la séquence d’action dans une vidéo.

Contrairement aux démos de robots ou aux images fragmentaires, les piles de texte massives sont facilement accessibles et incluent pratiquement tous les aspects de l’expérience humaine. Les modèles d’apprentissage automatique existants utilisent des ensembles de données spécifiques à des tâches pour en savoir plus sur la distribution passée des étiquettes et des jugements pour la majorité des problèmes. Lorsque les données d’apprentissage sont faussées ou rares, cela peut entraîner des erreurs systématiques, en particulier dans les entrées peu courantes ou hors distribution. Comment peuvent-ils fournir des modèles avec des connaissances a priori plus larges et plus adaptatives ? Ils proposent d’utiliser des distributions acquises sur des chaînes de langage naturel appelées modèles de langage comme prémisses de probabilité générales pour une tâche.

Les LM ont été utilisés comme sources de connaissances préalables pour des tâches allant de la réponse à des questions de bon sens à des textes de script et des anecdotes à la compilation d’algorithmes probabilistes dans le traitement du langage et d’autres activités de production de texte. Il offre souvent une plus grande polyvalence et une plus grande précision que les petits ensembles de données spécifiques à des tâches pour encoder une grande partie de ces informations, comme le fait que les plats se trouvent dans les cuisines et les salles à manger et que casser les œufs vient avant de les fouetter. Il a également été suggéré que ce contrôle du langage contribue à la connaissance humaine de bon sens dans des domaines où il est difficile d’apprendre à partir d’une expérience directe.

🚨 Lisez notre dernière newsletter AI🚨

Les techniques de séquençage de paradigme, qui codent les sorties des systèmes perceptifs sous forme de chaînes de langage naturel qui incitent les LM à produire instantanément des étiquettes ou des schémas, ont également été utilisées pour résoudre les difficultés de compréhension du langage sur le terrain. Au lieu de cela, ils se concentrent sur les LM dans cette étude en tant que source d’informations de fond probabilistes qui pourraient être incluses dans les modèles de domaine existants. Le LM est naturellement couplé à des cadres de modélisation de probabilités structurés car il peut être combiné à des modèles génératifs spécifiques à un domaine ou à des fonctions de probabilité pour combiner des connaissances de base « descendantes » avec des prédictions de tâches spécifiques « ascendantes » en les utilisant pour placer des distributions préalables sur des étiquettes. , décisions ou paramètres.

Ce type de modélisation est connu sous le nom de LAMPP. Cette méthode offre une technique solide pour combiner la supervision linguistique avec une incertitude structurée sur les facteurs non linguistiques, permettant de bénéficier de l’expertise du LM même dans des emplois difficiles où le LM a du mal à terminer. LAMPP est adaptable et peut être utilisé pour résoudre de nombreux types de problèmes. La segmentation sémantique des images, la navigation robotique et la segmentation des actions vidéo sont des exemples des tâches qu’elles présentent dans trois études de cas. LAMPP améliore fréquemment les performances sur les entrées qui sont rares, en dehors de la distribution et structurellement nouvelles, et dans de rares cas, améliore même la précision sur les échantillons dans la distribution d’apprentissage du modèle de champ. Ces résultats montrent que la langue est une source utile de connaissances de base pour la prise de décision générale et que l’incertitude dans ces connaissances de base peut être efficacement intégrée à l’incertitude dans les domaines problématiques non linguistiques.


scanner le papier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Anish Teeku est consultant stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Ses intérêts de recherche portent sur le traitement d’images et il est passionné par la création de solutions autour de celui-ci. Aime communiquer avec les gens et collaborer sur des projets intéressants.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال