HuggingFace déploie des scripts LoRA pour un réglage fin d'une propagation stable efficace

Microsoft a dévoilé Low-Order Adaptive (LoRA) en 2021 comme un moyen évolutif d’améliorer les grands modèles de langage (LLM). LoRA est une technique d’adaptation efficace qui maintient la qualité du modèle tout en réduisant considérablement le nombre de paramètres pouvant être entraînés pour les tâches en aval sans augmenter le temps d’inférence.

Bien que LoRA ait d’abord été proposé pour le LLM, il peut également être utilisé dans d’autres contextes. Les scientifiques ont publié un article de publication stable en 2022. Les chercheurs ont présenté les modèles de diffusion latente comme une approche rapide et facile pour améliorer la formation des modèles de diffusion et l’efficacité de l’échantillonnage sans sacrifier leur qualité. Les expériences peuvent montrer des résultats de pointe supérieurs dans un large éventail de tâches de synthèse d’images conditionnelles sans structures spécifiques à la tâche basées sur ce paradigme et le mécanisme de conditionnement de l’attention réciproque. Bien que les LDM nécessitent beaucoup moins de puissance de calcul que les méthodes basées sur les pixels, la procédure d’échantillonnage séquentiel est encore plus lente avec les LDM qu’avec les GAN. De plus, lorsqu’une grande précision est requise, l’emploi de LDM peut être discutable.

Récemment, des scientifiques et une équipe de la plateforme d’apprentissage automatique Hugging Face ont travaillé ensemble pour développer une stratégie globale qui permet aux utilisateurs d’intégrer LoRA dans des modèles de diffusion tels que Stable Diffusion en utilisant Dreambooth et des techniques de réglage complet.

🚨 Lisez notre dernière newsletter AI🚨

Laura Affiner

Le réglage fin du modèle complet de Stable Diffusion était long et difficile, ce qui explique en partie pourquoi des techniques plus rapides et plus intuitives telles que Dreambooth ou Textual Inversion ont été acquises. LoRA facilite considérablement la définition d’un modèle sur un ensemble de données unique. Le script de réglage fin LoRA proposé par Diffusers peut désormais fonctionner avec aussi peu que 11 Go de RAM GPU sans utiliser de triche comme les optimiseurs 8 bits. Avec LoRA, vous pouvez entraîner des ordres de grandeur avec des poids inférieurs à la taille du prototype et obtenir d’excellents résultats. Les chercheurs ont mis au point une procédure d’inférence qui permet de surcharger les résultats du modèle de diffusion stable d’origine.

Dreambooth avec LoRA

On peut “enseigner” de nouvelles idées au modèle Stable Diffusion en utilisant le Dreambooth. Dreambooth et LoRA sont compatibles, et la procédure est similaire à un réglage fin avec quelques avantages :

1. La formation est plus rapide.

2. Seules quelques images sont nécessaires du sujet que nous souhaitons former (5 ou 10 suffisent généralement).

3. Si l’on souhaite augmenter la précision spécifique au sujet de l’encodeur de texte, il peut être modifié.

Utilisez ce script d’éditeur pour entraîner Dreambooth à utiliser LoRA.

Le réglage fin a toujours été un objectif. La mise en miroir de texte est une autre technique populaire qui vise à apporter de nouvelles idées au modèle de déploiement stable ainsi qu’à Dreambooth. Le fait que les poids d’entraînement soient portables et faciles à transporter est l’un des principaux avantages de l’utilisation de l’inversion de texte. Ils peuvent être utilisés pour un seul sujet (ou un petit nombre de problèmes), mais LoRA peut être utilisé pour un réglage fin à des fins générales, ce qui lui permet d’être affecté à différents domaines ou ensembles de données.

Une technologie appelée réglage coaxial vise à combiner LoRA avec l’inversion de texture. Les utilisateurs doivent d’abord enseigner le modèle en utilisant des approches d’inversion textuelle pour représenter un nouveau concept. Ensuite, pour connecter le meilleur des deux mondes, entraînez l’intégration de jetons à l’aide de LoRA. L’équipe prévoit d’explorer le réglage du pivot avec LoRA à l’avenir.

scanner le Article d’origine. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Niharika est consultante technique stagiaire chez Marktechpost. Elle est étudiante en troisième année de premier cycle et poursuit actuellement un baccalauréat en technologie de l’Indian Institute of Technology (IIT), Kharagpur. C’est une personne très motivée avec un vif intérêt pour l’apprentissage automatique, la science des données et l’intelligence artificielle et une lectrice avide des derniers développements dans ces domaines.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال