Une nouvelle approche d'IA qui utilise le recyclage par intégration (ER) peut rendre le développement de modèles de langage plus efficace avec une formation 2 fois plus rapide et une inférence d'accélération 1,8 fois plus rapide.

Les modèles de langage sont parmi les meilleurs développements dans le domaine de l’intelligence artificielle. Avec des capacités telles que résumer des essais, écrire des histoires, répondre à des questions et compléter des symboles, les paradigmes linguistiques sont là pour rester. Ces modèles sont partout et formés sur d’énormes quantités de données textuelles, y compris des livres, des publications sur les réseaux sociaux, des articles, etc. Le dernier développement d’OpenAI, GPT-3, compte déjà des millions d’utilisateurs et 175 milliards de paramètres. Le Generative Transformer 3 pré-formé a des conversations de type humain et produit du texte sur une multitude de sujets et de sujets. Les gens les utilisent même pour créer des chatbots interactifs et des assistants virtuels.

Le modèle de langage fonctionne à l’aide de plusieurs couches de calcul, notamment la couche d’entrée, la couche d’intégration, les couches cachées et la couche de sortie. Étant donné que les machines ne comprennent pas le texte et ne comprennent que les données numériques, le rôle de la première couche est de convertir le texte alimenté en entrée du modèle en une représentation numérique. Ensuite, les différentes couches travaillent sur les données numériques en effectuant plusieurs calculs et estimations. La traduction intermédiaire de la transcription est effectuée à chaque niveau et les pondérations sont modifiées pour améliorer les performances du modèle.

Les poids dans le modèle montrent la force des réseaux entre les neurones, qui déterminent les performances du modèle et la validité de la sortie. Bon nombre des poids les plus proches de l’entrée du modèle restent les mêmes au moment de la formation, ce qui entraîne une redondance dans la formation du modèle. Cela entraîne une efficacité réduite, une perte d’énergie, de ressources et de temps. Une nouvelle approche appelée incorporation de recyclage (ER) a été introduite, qui peut améliorer l’efficacité et réutiliser les représentations de séquences des exécutions de modèles précédentes.

🚨 Lisez notre dernière newsletter AI🚨

L’inclusion du recyclage préserve les représentations de séquence pendant la formation et permet d’économiser du temps et des ressources lors de l’exécution de nombreux modèles de langage sur le même jeu de données textuelles. De nombreux modèles fonctionnent et fonctionnent sur le même ensemble de scripts. Il est important de réutiliser les décorations contextuelles créées lors de l’exécution du modèle précédent pour réduire le coût et lier le processus de formation. L’équipe de recherche composée de chercheurs d’AI2, de Yale et de Northwestern a testé la technologie pour 14 tâches différentes et huit modèles de langage. Le nombre de paramètres dans ces modèles variait de 17 millions à 900 millions. Il a montré une augmentation de la vitesse d’entraînement de 90% et une accélération de l’inférence de 87 à 91%. Tout cela a été réalisé avec une perte minimale dans l’échelle F-1.

L’équipe a partagé quelques exemples où l’intégration du recyclage peut être utilisée, par exemple, lorsque plusieurs modèles fonctionnent sur le même seau. Il s’agit notamment de la classification des sujets, du résumé de texte, de l’extraction de mots clés sur le même document Wikipedia et d’un assistant d’IA commercial qui effectue la reconnaissance des sentiments, l’identification des commandes, etc., sur la même requête de l’utilisateur.

Inclure le recyclage est sans aucun doute un excellent moyen de réduire les coûts de calcul de la formation et de l’inférence. Il introduit le recyclage des couches à l’aide d’un réglage fin et d’adaptateurs paramétrés efficaces, ce qui semble favorable à une utilisation efficace des modèles de langage. Ainsi, l’inclusion de Reying est une percée étonnante dans le développement du modèle de langage.


scanner le papierEt github Et Article de référence. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.

pour la publicité ou le parrainage, S’il vous plait remplissez le formulaire.


Tania Malhotra est en dernière année à l’Université d’études pétrolières et énergétiques de Dehradun, poursuivant un BTech en génie informatique avec une spécialisation en intelligence artificielle et en apprentissage automatique.
Elle est passionnée par la science des données et possède une bonne pensée analytique et critique, ainsi qu’un vif intérêt pour l’acquisition de nouvelles compétences, la direction de groupes et la gestion du travail de manière organisée.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال