Les grands modèles de langage comme le GPT-3 d’OpenAI sont des réseaux de neurones massifs qui peuvent générer du texte de type humain, de la poésie au code de programmation. Formés à l’aide d’ensembles de données Internet, ces modèles d’apprentissage automatique prennent une petite partie du texte d’entrée, puis prédisent quel texte est susceptible de venir ensuite.
Mais ce n’est pas tout ce que ces modèles peuvent faire. Les chercheurs explorent un phénomène curieux connu sous le nom d’apprentissage en contexte, dans lequel un grand modèle de langage apprend à accomplir une tâche après avoir vu seulement quelques exemples, malgré le fait qu’il n’a pas été formé à la tâche. Par exemple, quelqu’un pourrait donner au modèle plusieurs phrases d’exemple et ses sentiments (positifs ou négatifs), puis l’inviter avec une nouvelle phrase, et le modèle pourrait donner l’émotion correcte.
Habituellement, un modèle d’apprentissage automatique comme GPT-3 doit être recyclé avec de nouvelles données pour cette nouvelle tâche. Au cours de ce processus de formation, le modèle met à jour ses paramètres tout en traitant de nouvelles informations pour apprendre la tâche. Mais avec l’apprentissage contextuel, les paramètres du modèle ne sont pas mis à jour, il semble donc que le modèle apprend une nouvelle tâche sans rien apprendre du tout.
Des scientifiques du MIT, de Google Research et de l’Université de Stanford s’efforcent de percer ce mystère. Ils ont étudié des modèles très similaires à ceux des grands langages pour voir comment ils pouvaient apprendre sans mettre à jour les paramètres.
Les résultats théoriques des chercheurs montrent que ces modèles de réseaux de neurones volumineux sont capables de contenir des modèles linéaires plus petits et plus simples enfouis en leur sein. Le grand modèle peut alors implémenter un algorithme d’apprentissage simple pour entraîner ce modèle linéaire plus petit à accomplir une nouvelle tâche, en utilisant uniquement les informations déjà présentes dans le modèle plus grand. Ses paramètres restent constants.
Une étape importante vers la compréhension des mécanismes derrière l’apprentissage en contexte, cette recherche ouvre la porte à une exploration plus approfondie des algorithmes d’apprentissage que ces grands modèles peuvent mettre en œuvre, déclare Ekin Akyurek, étudiant diplômé en informatique et auteur principal d’un article explorant ce phénomène. Avec une meilleure compréhension de l’apprentissage en contexte, les chercheurs peuvent permettre aux modèles d’accomplir de nouvelles tâches sans avoir besoin d’un recyclage coûteux.
“Habituellement, si vous voulez affiner ces modèles, vous devez collecter des données spécifiques à un domaine et faire une ingénierie complexe. Mais maintenant, nous pouvons simplement mettre une entrée, cinq exemples et réaliser ce que nous voulons. Donc, en- l’apprentissage de texte est un phénomène d’apprentissage incroyablement efficace. » raisonnable pour être compris », déclare Akyurek.
Akyürek est rejoint sur l’article par Dale Schurmans, chercheur scientifique sur Google Brain et professeur de sciences informatiques à l’Université de l’Alberta; En plus des auteurs principaux, Jacob Andreas, professeur adjoint du X Consortium au département de génie électrique et d’informatique du MIT et membre du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL); Tengyu Ma, professeur adjoint d’informatique et de statistiques à l’Université de Stanford ; et Danny Zhou, scientifique principal et directeur de la recherche chez Google Brain. La recherche sera présentée à la Conférence internationale sur la représentation de l’apprentissage.
Un modèle dans un modèle
Akyurek dit que dans la communauté de recherche sur l’apprentissage automatique, de nombreux scientifiques en sont venus à croire que les grands modèles de langage peuvent effectuer un apprentissage contextuel en raison de la façon dont ils sont formés.
Par exemple, GPT-3 contient des centaines de milliards de paramètres et a été formé en lisant d’énormes quantités de texte sur Internet, des articles de Wikipédia aux publications de Reddit. Ainsi, lorsque quelqu’un vous montre des exemples d’exemples pour une nouvelle tâche, il est probable qu’il ait déjà vu quelque chose de très similaire, car son ensemble de données d’entraînement comprenait du texte provenant de milliards de sites Web. Il répète les schémas dont il a été témoin pendant la formation, au lieu d’apprendre à effectuer de nouvelles tâches.
Akyurek a émis l’hypothèse que les apprenants contextuels non seulement correspondent à des modèles déjà vus, mais apprennent plutôt à effectuer de nouvelles tâches. Lui et d’autres ont expérimenté en donnant à ces modèles des stimuli à l’aide de données synthétiques, qu’ils ne pouvaient voir nulle part auparavant, et ont découvert que les modèles pouvaient encore apprendre à partir de quelques exemples seulement. Akyurek et ses collègues pensaient que ces modèles de réseaux neuronaux contenaient peut-être des modèles d’apprentissage automatique plus petits que les modèles pouvaient entraîner pour accomplir une nouvelle tâche.
“Cela pourrait expliquer presque tous les phénomènes d’apprentissage que nous avons vus avec ces grands modèles”, dit-il.
Pour tester cette hypothèse, les chercheurs ont utilisé un modèle de réseau neuronal appelé adaptateur, qui a la même architecture que GPT-3, mais est spécifiquement formé pour l’apprentissage contextuel.
En explorant l’architecture de ce convertisseur, ils ont théoriquement démontré qu’il peut écrire une forme linéaire à l’intérieur de ses états cachés. Un réseau de neurones se compose de plusieurs couches de nœuds interconnectés qui traitent les données. Les états masqués sont les couches entre les couches d’entrée et de sortie.
Leurs évaluations mathématiques montrent que ce modèle linéaire est écrit quelque part dans les premières couches de transformateurs. L’adaptateur peut alors mettre à jour le modèle linéaire en mettant en œuvre des algorithmes d’apprentissage simples.
Essentiellement, le modèle imite et forme une version plus petite de lui-même.
Sonder les couches cachées
Les chercheurs ont exploré cette hypothèse à l’aide d’expériences exploratoires, sondant les couches cachées du transformateur pour tenter d’en récupérer une certaine quantité.
“Dans ce cas, nous avons essayé de récupérer la solution réelle du modèle linéaire, et nous pouvons montrer que le paramètre est écrit dans les états cachés. Cela signifie que le modèle linéaire est quelque part là-dedans”, dit-il.
S’appuyant sur ce travail théorique, les chercheurs pourraient permettre à un transducteur d’effectuer un apprentissage contextuel en ajoutant seulement deux couches au réseau neuronal. Il reste encore de nombreux détails techniques à travailler avant que cela ne soit possible, prévient Akyurek, mais cela pourrait aider les ingénieurs à créer des modèles capables d’accomplir de nouvelles tâches sans avoir à se recycler sur de nouvelles données.
L’article met en évidence l’une des caractéristiques les plus déterminantes des paradigmes modernes des grands langages – leur capacité à apprendre à partir des données contenues dans leur entrée, sans formation explicite. En utilisant le cas simplifié de la régression linéaire, les auteurs montrent théoriquement comment les modèles peuvent implémenter des algorithmes d’apprentissage standard tout en lisant leurs entrées, et quels algorithmes d’apprentissage correspondent empiriquement à leur comportement observé », explique Mike Lewis, chercheur chez Facebook AI Research qui n’était pas impliqué. “Ces résultats sont un point de départ pour comprendre comment les modèles peuvent apprendre des tâches plus complexes et aideront les chercheurs à concevoir de meilleures méthodes de formation pour les modèles de langage afin d’améliorer leurs performances.”
À l’avenir, Akyürek prévoit de continuer à explorer l’apprentissage contextuel avec des fonctions plus complexes que les modèles linéaires qu’ils ont étudiés dans ce travail. Ils peuvent également appliquer ces expériences à de grands modèles de langage pour voir si leurs comportements sont également décrits par des algorithmes d’apprentissage simples. En outre, il souhaite approfondir les types de données de pré-formation qui peuvent permettre l’apprentissage en contexte.
“Grâce à ce travail, les gens peuvent maintenant visualiser comment ces modèles peuvent apprendre à partir de modèles. J’espère donc que cela changera l’opinion de certaines personnes sur l’apprentissage en contexte”, déclare Akyurek. Ces modèles ne sont pas aussi stupides que les gens le pensent. Ils ne se contentent pas de mémoriser ces tâches. Ils peuvent apprendre de nouvelles tâches, et nous avons montré comment cela peut être fait.”