Les chercheurs de Google AI proposent une méthode d'entraînement hautement efficace et stable de 22B-Parameter ViT (ViT-22B)

Le transfert de la colonne vertébrale de vision pré-formée a amélioré les performances sur diverses tâches de vision, telles que le traitement du langage naturel. Des ensembles de données plus volumineux, des infrastructures évolutives et des technologies de formation innovantes ont alimenté son essor. Malgré cela, les modèles de langage ont largement surpassé les modèles de vision en termes de capacités émergentes à grande échelle. Le modèle de langage le plus dense a des paramètres 540B, le plus grand modèle de vision dense n’a que des paramètres 4B et le modèle de paramètres modérés d’un modèle de langage compétitif débutant a souvent plus de 10B paramètres.

Les modèles de langage ont plus d’un billion de paramètres, mais les plus grands modèles de vision discrète enregistrés n’en ont que 15 milliards. Les modèles clairsemés montrent la même tendance. Le plus gros modèle lourd ViT à ce jour, le ViT-22B, est présenté dans cet ouvrage. Ils identifient les instabilités d’entraînement pathologiques qui empêchent la mise à l’échelle d’une recette virtuelle aux paramètres 22b et démontrent les optimisations architecturales qui le permettent. De plus, ils conçoivent soigneusement le modèle pour fournir une formation parallèle du modèle avec une efficacité sans précédent jusqu’à présent. Une suite complète de missions d’évaluation, allant de la classification aux missions à forte intensité de sortie, est utilisée pour déterminer si le ViT-22B respecte ou dépasse les dernières technologies disponibles.

Avec 22 milliards de paramètres, le ViT-22B est le plus grand modèle de transducteurs de vision disponible. Par exemple, le ViT-22B obtient une précision de 89,5 % sur ImageNet même lorsqu’il est utilisé comme extracteur de caractéristiques optiques gelées. Une précision de 85,9 % sur ImageNet a été obtenue dans la condition de tir zéro à l’aide d’une tourelle de texte entraînée pour correspondre à ces attributs visuels. Le modèle est également un excellent patron. En l’utilisant comme cible de distillation, ils enseignent à un étudiant ViT-B qui a un taux de 88,6 % sur ImageNet, le leader de l’industrie. Cette performance s’accompagne d’améliorations de la fiabilité, des estimations d’incertitude et des compromis d’équité. Enfin, les caractéristiques du modèle correspondaient étroitement à la façon dont les gens percevaient les choses, ce qui entraînait un biais de forme inouï de 87 %.

🚨 Lisez notre dernière newsletter AI🚨

ViT-22B est un modèle cryptographique basé sur un transformateur avec des couches parallèles, une normalisation de requête/clé (QK) et des biais supprimés pour augmenter l’efficacité et la stabilité de la formation à grande échelle. Son architecture est similaire à celle du Vision Transformer d’origine.

couches superposées. Au lieu d’appliquer séquentiellement les blocs d’attention et le MLP comme dans un convertisseur conventionnel, le ViT-22B le fait en parallèle. Les projections linéaires du MLP et des blocs d’attention permettent différents parallélismes.

Normalisation QK. Après quelques milliers de pas, ils ont vu une perte d’entraînement différenciée alors que ViT augmentait bien au-delà des efforts précédents. En particulier, les modèles avec environ 8b paramètres ont montré une instabilité similaire. Cela a été provoqué par des valeurs anormalement élevées du logarithme de l’attention, qui ont produit des poids d’attention pratiquement chauds et presque sans entropie. Ils utilisent la méthode d’application LayerNorm pour les requêtes et les clés avant de calculer l’attention du produit raster pour résoudre ce problème et exclure les biais des projections LayerNorms et QKV. Après PaLM, toutes les LayerNorms ont été appliquées sans biais ni centrage, et les termes de biais ont été éliminés des projections QKV.

Ils montrent comment la conception originale peut être améliorée pour atteindre une utilisation élevée de l’appareil et une stabilité de formation, résultant en un modèle qui surpasse SOTA dans plusieurs critères. En particulier, d’excellentes performances peuvent être obtenues en créant des coins avec le motif figé, puis en formant de fines couches sur ces motifs. Leurs analyses montrent également que le ViT-22B est supérieur aux modèles précédents en termes d’équité et de durabilité et est plus humain en termes de forme et de texture. Le code et l’ensemble de données n’ont pas encore été publiés.


scanner le papier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Anish Teeku est consultant stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Ses intérêts de recherche portent sur le traitement d’images et il est passionné par la création de solutions autour de celui-ci. Aime communiquer avec les gens et collaborer sur des projets intéressants.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال