Les grands modèles de langage (LLM) ont pris d’assaut l’industrie technologique au cours des dernières années. Formés sur d’énormes quantités de données, ces modèles de langage peuvent effectuer une grande variété de tâches, des tâches de base telles que la synthèse de texte et l’écriture de poésie à des tâches plus difficiles telles que la création d’invites techniques pour l’IA et même la prédiction de la structure des protéines. ChatGPT d’OpenAI est actuellement l’un des exemples les plus importants et les plus populaires de LLM. Utilisant Transformer 3 Generative préformé, ChatGPT est une interface de chat basée sur le dialogue qui peut parler aux gens, écrire du code, répondre aux questions et même résoudre des équations mathématiques difficiles. Même d’autres géants de la technologie, tels que Google et Microsoft, n’ont ménagé aucun effort pour publier leurs propres modèles de langage tels que BARD et Bing.
Il est largement admis parmi les universitaires que l’ajout de plus de paramètres améliore les performances lors de la formation d’un LLM avec environ un milliard de paramètres. Des recherches récentes montrent que pour un budget de calcul de formation donné, les modèles plus petits formés sur plus de données, par opposition aux modèles plus grands, produisent les meilleures performances. Le budget d’inférence est un autre paramètre clé qui est nécessaire pour obtenir le degré de performance souhaité. Bien qu’il puisse être moins coûteux d’entraîner un grand modèle pour atteindre un certain niveau de performances, un modèle plus petit qui est entraîné pendant une plus longue période sera finalement moins cher lorsqu’il sera déduit. Dans certains cas, le modèle parfait n’est pas celui qui s’entraîne plus rapidement, mais celui qui fait des inférences plus rapidement.
Pour faire sa marque dans la course aux modèles d’IA compétitifs et génératifs, Meta, la société mère de Facebook, présente sa gamme de modèles de langage d’IA sous le nom de LLaMA. Ce travail vise à développer plusieurs modèles de langage qui fonctionnent de manière optimale avec différents budgets d’inférence, inspirant la communauté de l’IA à mener des recherches sur la création de modèles de langage plus responsables. Auparavant, l’accès à ces modèles de langage était coûteux et limité car ils nécessitaient souvent des serveurs en cours d’exécution. Mais avec LLaMA, Meta vise à résoudre exactement cela pour les chercheurs. L’organisation s’entraîne uniquement sur des données accessibles au public et affirme que LLaMA peut surpasser les modèles d’IA plus grands actuellement utilisés, y compris l’ancien modèle GPT-3 d’OpenAI. L’entreprise a fait un excellent travail en démontrant qu’il est possible de former les derniers modèles sans recourir à des ensembles de données privés et inaccessibles.
🚨 Lisez notre dernière newsletter AI🚨
Meta a un LLaMA open source dans l’espoir que les modèles aideront à démocratiser l’accès et l’étude des LLM car ils peuvent fonctionner sur un seul GPU. Cela permettra aux chercheurs de mieux comprendre le LLM et de réduire d’autres problèmes connus, notamment les biais, la toxicité et la capacité à diffuser des informations erronées. Un autre aspect intéressant de cet ensemble de paradigmes linguistiques est que, contrairement à d’autres paradigmes linguistiques tels que ChatGPT et Bing, LLaMA est exclusivement à des fins de recherche et est distribué sous une “licence non commerciale”. L’accès est actuellement disponible pour une variété de chercheurs universitaires, de gouvernements, d’universités et d’autres institutions universitaires.
LLaMA peut produire des dialogues de type humain à partir d’une invite de saisie de texte comme les autres chatbots AI. Quatre modèles différents sont disponibles, avec des paramètres allant de 7 milliards à 65 milliards. Comparé au précédent modèle GPT-3 d’OpenAI, il est environ dix fois plus petit. Seules les données accessibles au public de différents domaines qui ont déjà été utilisées pour former d’autres LLM ont été utilisées pour former la série de modèles de référence. Cela a facilité l’open source des modèles. CCNet, C4, GitHub, Wikipedia, Books, ArXiv et Stack Exchange sont quelques-unes des sources de données utilisées pour former LLaMA. La conception des transformateurs sert de base à LLaMA, avec d’autres développements introduits au cours des dernières années. Les méta-chercheurs ont formé de grands transformateurs sur une énorme quantité de données textuelles à l’aide d’un optimiseur standard.
Un billion de jetons ont été utilisés pour former le plus petit modèle LLaMA-7B. D’autre part, des modèles avec des paramètres plus grands tels que LLaMA-33B et LLaMA-65B ont été entraînés sur 1,4 billion de symboles. Les chercheurs ont évalué leur série de modèles de base à l’aide de divers critères de référence, notamment BoolQ, WinoGrande, OpenBookQA, NaturalQuestions, RealToxicityPrompts, WinoGender et autres. Les deux découvertes les plus importantes des chercheurs sont que le modèle LLaMA-13B, la deuxième version la plus petite, surpasse l’ancien modèle GPT-3 dans la plupart des benchmarks, et que le modèle LLaMA-65B est compétitif avec certains des meilleurs modèles actuellement disponibles, y compris Chinchilla-70B de DeepMind et PaLM-540B de Google.
En bref, Meta a publié une série de LLM d’IA à la pointe de la technologie appelée LLaMA pour les chercheurs qui espèrent faire avancer la recherche sur les LLM et améliorer sa robustesse. Les chercheurs ont découvert que l’ajustement de ces modèles selon les instructions conduit à des résultats positifs en ce qui concerne les travaux futurs. Les chercheurs approfondiront cette question. Afin d’améliorer les performances, Meta cherche également à déployer des modèles plus grands qui sont formés sur des groupes plus importants.
scanner le papier Et github. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Khushboo Gupta est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son baccalauréat en technologie de l’Indian Institute of Technology (IIT), Goa. Elle est passionnée par les domaines de l’apprentissage automatique, du traitement du langage naturel et du développement Web. Vous aimez en apprendre davantage sur le domaine technique en participant à divers défis.