Des études récentes sur la stimulation de modèles de langage pré-entraînés (LM) ont produit des résultats impressionnants dans de nombreuses tâches de traitement du langage naturel. Cependant, on ne peut pas en dire autant des résultats pour les domaines à faibles ressources. La plupart des LM accessibles au public sont formés sur des données provenant de domaines publics, tels que Wikipedia ou BooksCorpus. Ainsi, les appliquer à des tâches en aval conduit à un écart de champ. La grande disponibilité des données textuelles est abondante dans le domaine public. En revanche, les domaines à faibles ressources ne partagent pas cette caractéristique, ce qui rend le développement de LM spécifique à un domaine considérablement plus difficile. De plus, il est possible que la formation de différents modèles pour chaque nouveau domaine ne soit pas la procédure la plus efficace en termes de calcul. Les LM spécifiques à un domaine peuvent ne pas recevoir suffisamment d’instructions orientées domaine en utilisant des stratégies d’incitation traditionnelles, même avec des scripts spécifiques à un domaine et des ressources de calcul suffisantes. En effet, les connaissances spécifiques à un domaine sont souvent représentées par un vocabulaire général étendu qui manque de « jetons » spécifiques à un domaine. Par conséquent, en particulier dans les environnements à faibles ressources, pousser le LM des domaines public et privé peut être inefficace.
Ces difficultés ont incité les chercheurs de Bosch à créer SwitchPrompt, une méthodologie de motivation innovante et légère pour les réclamations spécifiques à un domaine. SwitchPrompt tente d’extraire efficacement des informations spécifiques à un domaine à partir de LM pré-formés sur des ensembles de données du domaine public. Ils ne nécessitent pas de formation préalable sur les LM spécifiques au domaine ou de réglage des LM pour une tâche en aval. Selon plusieurs études menées par des chercheurs sur des ensembles de données de référence de plusieurs régions, SwitchPrompt est supérieur à la technologie de stimulation de pointe actuelle. Il s’est également avéré particulièrement adapté aux environnements à faibles ressources où peu de données et de ressources informatiques sont disponibles.
SwitchPrompt fournit des invites orientées domaine en ajoutant une série de vecteurs codant des mots-clés spécifiques au domaine à la séquence d’invites logicielles. Les invites proposées par l’équipe ont été développées pour permettre au modèle de basculer dynamiquement entre une invite de domaine général et une question spécifique à un domaine afin d’obtenir différents types de connaissances à partir du LM pré-formé, en fonction de l’entrée. Ils ont utilisé des portes pour effectuer cette conversion dynamique. L’équipe de recherche pense que cela démontre comment leur méthodologie extrait efficacement des informations spécifiques à un domaine à partir de LM pré-formés.
🚨 Lisez notre dernière newsletter AI🚨
L’équipe a utilisé un certain nombre d’ensembles de données de classification normative de différents domaines. Certains exemples incluent la classification des questions des domaines général et clinique, la classification de l’expérience du domaine de la science des matériaux, etc. Les chercheurs sont allés plus loin et ont même examiné les environnements à très faibles ressources en créant leurs propres ensembles de données à quelques prises de vue à l’aide d’un échantillonnage aléatoire. En ce qui concerne le modèle choisi, les chercheurs ont utilisé plusieurs modèles de langage open source HuggingFace.
SwitchPrompt comble efficacement les lacunes sur le terrain entre les données de tâche de pré-formation et les données de tâche finales, améliorant à la fois les performances sur le terrain et hors du terrain. Une expérience de quelques coups sur trois critères de classification de texte démontre l’efficacité des modèles de langage pré-formés du domaine public lorsqu’ils sont utilisés avec SwitchPrompt. Avec une amélioration de 10,7 % de la précision des performances, les LM du domaine public avec SwitchPrompt surpassent leurs concurrents spécifiques au domaine formés avec la dernière technologie de stimulation. Ces résultats indiquent clairement que SwitchPrompt réduit efficacement le besoin de pré-formation de modèles de langage spécifiques à un domaine.
En conclusion, les chercheurs de Bosch proposent SwitchPrompt, une approche unique pour stimuler efficacement les LM pré-formés dans les environnements à faibles ressources. SwitchPrompt réduit considérablement l’écart de performances entre les modèles de langage à l’échelle du domaine et spécifiques au domaine. La base de leur approche est l’utilisation de mots-clés et de portes spécifiques à un domaine, qui permettent à LM de récupérer dynamiquement des connaissances spécifiques à un domaine. En ce qui concerne les travaux futurs, les chercheurs de Bosch prévoient d’étudier les effets sur les ensembles de données avec des domaines mixtes et des tâches impliquant l’étiquetage de séquences.
scanner le papier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Khushboo Gupta est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son baccalauréat en technologie de l’Indian Institute of Technology (IIT), Goa. Elle est passionnée par les domaines de l’apprentissage automatique, du traitement du langage naturel et du développement Web. Vous aimez en apprendre davantage sur le domaine technique en participant à divers défis.