Des modèles d’apprentissage automatique sont nécessaires pour coder du texte long pour diverses tâches de traitement du langage naturel, y compris résumer ou répondre à des questions sur des documents longs. Étant donné que le coût attentionnel augmente au carré avec la longueur d’entrée et que des couches d’anticipation et de suppression doivent être appliquées à chaque symbole d’entrée, le traitement de texte long à l’aide du modèle de transformateur est coûteux en calcul. Plusieurs stratégies de «switcher actif» ont été développées ces dernières années qui réduisent le coût du mécanisme attentionnel pour les entrées longues. Cependant, les couches d’anticipation et de suppression – en particulier pour les modèles plus grands – supportent l’essentiel de la charge de calcul et peuvent rendre impossible l’analyse des entrées détaillées. Cette étude présente COLT5, une nouvelle famille de modèles qui, en incorporant des optimisations d’architecture pour les couches attentionnelles et directes, s’appuie sur LONGT5 pour permettre un traitement rapide des entrées longues.
Le fondement de COLT5 est la compréhension que certains jetons sont plus importants que d’autres et qu’en consacrant plus de calcul aux jetons qui comptent, une meilleure qualité peut être obtenue à moindre coût. Par exemple, COLT5 sépare chaque couche de rétroaction et chaque couche d’attention en une branche légère appliquée à tous les jetons et une branche lourde utilisée pour sélectionner les jetons spécifiquement choisis pour cette entrée et ce composant. Par rapport au LONGT5 normal, la dimension cachée de la branche d’alimentation légère est plus petite que celle de la branche d’alimentation lourde. De plus, le pourcentage de jetons diminuera avec la longueur du document, permettant un traitement gérable des textes longs.
Un aperçu du mécanisme conditionnel de COLT5 est présenté dans la figure 1. La structure de LONGT5 a subi deux changements supplémentaires grâce à COLT5. La branche High Attention effectue Full Attention via un ensemble différent de jetons soigneusement choisis, tandis que la branche Light Attention a moins de sommets et applique Local Attention. L’attention mutuelle multi-requêtes, introduite par COLT5, accélère considérablement l’inférence. De plus, COLT5 utilise la cible de pré-formation UL2, qui permet un apprentissage contextuel sur des entrées prolongées.
Des chercheurs de Google Research proposent le modèle COLT5, un nouveau modèle d’entrées à distance qui utilise le calcul conditionnel pour de meilleures performances et un traitement plus rapide. Ils montrent que COLT5 surpasse LONGT5 dans les ensembles de données de synthèse arXiv et de questions-réponses TriviaQA, améliorant ainsi la portée de LONGT5 et SOTA sur l’échelle SCROLLS. Avec une mise à l’échelle moins que linéaire des symboles “focus”, COLT5 améliore considérablement la qualité et les performances des travaux avec de longues entrées. COLT5 effectue également un réglage et une inférence beaucoup plus rapides avec une qualité d’échantillon identique ou supérieure. Les couches d’anticipation et d’attention légères de COLT5 s’appliquent à toutes les entrées, tandis que les branches lourdes n’affectent qu’une sélection de jetons choisis par le routeur appris. Ils ont démontré que COLT5 surpasse LONGT5 sur de longs ensembles de données à entrées multiples à toutes les vitesses et peut utiliser avec succès et efficacement de très longues entrées allant jusqu’à 64K.
🔥 Lecture recommandée : Tirer parti de TensorLeap pour apprendre un transfert efficace : surmonter les lacunes sur le terrain
Anish Teeku est consultant stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Ses intérêts de recherche portent sur le traitement d’images et il est passionné par la création de solutions autour de celui-ci. Aime communiquer avec les gens et collaborer sur des projets intéressants.