Une nouvelle recherche sur l'IA offre une approche rapide pour analyser les capacités des grands modèles de langage LLM

L’augmentation récente de l’utilisation des grands modèles de langage (LLM) a conduit à un changement complet dans le domaine du traitement du langage naturel (TAL), incitant notamment LLM à créer un script ouvert. Les applications de la création de scripts ouverts sont étendues et incluent de multiples domaines tels que la réponse aux questions, la création d’histoires, la génération de code, la créativité assistée par l’homme et le dialogue ouvert.

Alors que ces modèles continuent de se développer, l’imprévisibilité de ces systèmes suscite une inquiétude croissante et, par conséquent, une meilleure compréhension de leurs capacités et de leurs limites est nécessaire.

Des chercheurs du Georgia Institute of Technology, de l’Université Jiao Tong de Shanghai, de Google et de l’Université de Stanford ont créé une classification rapide pour l’analyse de la génération de texte ouvert. Ils ont essayé 288 allégations et évalué plus de 3 000 résultats, analysant les stratégies d’atténuation et les futures orientations de recherche.

🚨 Lisez notre dernière newsletter AI🚨

Pour analyser les capacités et les limites des modèles de langage pour la génération de texte ouvert, les chercheurs ont créé une taxonomie des limites individuelles en fonction de la manière dont les utilisateurs placent naturellement les limites dans les invites. Ils ont conçu un ensemble d’invites simples et naturelles comme invites de base pour chaque contrainte et les ont variées selon des dimensions telles que le sujet et le modèle immédiat pour atténuer la variance immédiate.

Les contraintes dans les invites peuvent être classées en deux catégories : la contrainte stylistique, qui limite le style de sortie, comme l’écriture stylisée, et la contrainte structurelle, qui limite la structure de la sortie, comme la limitation du nombre de mots.

Les chercheurs ont généré 288 revendications et produit des résultats en utilisant GPT-3, OPT, BLOOM et GLM. Ils ont généré dix résultats pour chaque invite de l’évaluation. Par exemple, le motif principal de la contrainte stylistique “humeur” est “Écrivez un passage sur l’amour qui rend le lecteur (en colère, effrayé, heureux, triste)”.

Source : https://github.com/SALT-NLP/Bound-Cap-LLM

limites stylistiques

Les chercheurs ont découvert que GPT-3 se débat avec certaines limitations stylistiques difficiles telles que la comédie, la satire, la satire et la fiction littéraire, et est sensible aux appariements de thèmes stylistiques. GPT-3 mélange style et sujet lorsque l’invite est trop difficile et se débat avec des mots qui ne sont pas propres à l’écriture créative.

Cependant, les performances du modèle ne sont pas en corrélation avec la difficulté rapide observée par les commentateurs, ce qui indique que les facteurs contribuant à la difficulté rapide diffèrent entre les humains et les LLM. Cela met en évidence l’importance de la recherche expérimentale de stimuli stimulants et non stimulants pour les LLM.

limites structurelles

Alors que GPT-3 comprend généralement les limitations structurelles de la dactylographie, il se débat avec les limitations numériques telles que le nombre de mots ou de phrases requis, et produit souvent une sortie proche mais pas exacte. Le formulaire montre également une grande variation dans la création de texte de longueur variable lorsqu’on lui demande des contraintes descriptives et structurelles telles que “long”.

De plus, GPT-3 ne parvient pas à formater correctement les documents académiques, probablement en raison du manque d’étiquettes claires pour ces documents dans ses données de formation.

Les auteurs ont utilisé leur méthodologie pour analyser trois autres LLM, OPT-176B9, BLOOM-176B10 et GLM-130B11, en utilisant les mêmes revendications et des revendications de contraintes structurelles numériques supplémentaires. Ils ont constaté que ces modèles fonctionnaient moins bien que GPT-3, avec plus de la moitié de leur sortie générée dégradée.

commentaires

L’article présente une méthodologie pour analyser la capacité des modèles linguistiques à générer un texte ouvert sous des contraintes structurelles et stylistiques. Les résultats montrent des défaillances cohérentes avec les défis du modèle observés et de nouveaux modes de défaillance à travers les contraintes structurelles et stylistiques.

Les auteurs fournissent également des mesures d’atténuation qui améliorent constamment les performances dans les deux domaines. Le document reconnaît certaines limitations, notamment le fait que la taxonomie ne couvre pas tous les aspects des limitations stylistiques et structurelles et n’est pas représentative de toutes les générations de texte ouvert.

Les auteurs notent également des considérations éthiques, telles que le potentiel d’abus de style et de dommages aux annotations, et suggèrent des lignes directrices pour protéger les commentateurs. Dans l’ensemble, la méthodologie et les résultats présentés dans l’article contribuent à comprendre les capacités et les limites des modèles de langage.


scanner le papier Et github. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Je suis diplômé en génie civil (2022) de l’Université Jamia Millia Islamia, New Delhi, j’ai un vif intérêt pour la science des données, en particulier les réseaux de neurones et leurs applications dans divers domaines.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال