Le développement de grands modèles de langage tels que ChatGPT et DALL-E a été un sujet d’intérêt pour la communauté de l’IA. Utilisant des techniques avancées d’apprentissage en profondeur, ces modèles font tout, de la génération de texte à la production d’images. DALL-E, développé par OpenAI, est un modèle de génération de texte à image qui produit des images de haute qualité en fonction de la description textuelle saisie. Formés sur d’énormes ensembles de données de texte et d’images, les modèles de génération de texte à image développent une représentation visuelle du texte sélectionné ou dirigé. Non seulement cela, mais actuellement, il existe plusieurs modèles de texte à image qui non seulement produisent une nouvelle image à partir d’une description textuelle, mais créent également une nouvelle image à partir d’une image existante. Ceci est fait en utilisant le concept de diffusion stable. L’architecture de réseau neuronal récemment introduite, ControlNet, améliore considérablement le contrôle des modèles de propagation texte-image.
Développé par des chercheurs de l’Université de Stanford nommés Lvmin Zhang et Maneesh Agrawala, ControlNet permet la génération d’images avec un contrôle fin et précis sur le processus de production d’images à l’aide de modèles de diffusion. Un modèle de diffusion est simplement un modèle génératif qui aide à créer une image à partir de texte en modifiant et en mettant à jour de manière itérative les variables qui représentent l’image. À chaque itération, plus de détails sont ajoutés à l’image, le bruit est supprimé et un décalage progressif vers l’image cible. Ces modèles de diffusion sont mis en œuvre à l’aide de Stable Diffusion, dans lequel un processus de diffusion amélioré est utilisé pour entraîner les modèles de diffusion. Il aide à produire différentes images avec beaucoup de stabilité et de confort.
ControlNet fonctionne en conjonction avec des modèles de propagation pré-formés pour permettre la génération d’images qui couvrent tous les aspects des descriptions de texte fournies en entrée. Cette architecture de réseau de neurones permet de produire des images de haute qualité en prenant en compte des conditions d’entrée supplémentaires. ControlNet fonctionne en créant une copie de chaque bloc de l’ensemble Diffusion stable en deux variables – une variable entraînable et une variable fermée. Lors de la production de l’image cible, la variable entraînable tente de mémoriser les nouvelles conditions de synthèse d’image et y détaille précisément à l’aide de jeux de données courts. D’autre part, la variable interdite aide à conserver les capacités et capacités du modèle de diffusion juste avant la création de l’image objective.
🚨 Lisez notre dernière newsletter AI🚨
La meilleure partie du développement de ControlNet est sa capacité à dire quelles parties de l’image d’entrée sont importantes pour générer l’image objective et lesquelles ne le sont pas. Contrairement aux méthodes traditionnelles qui n’ont pas la capacité d’observer avec précision l’image d’entrée, ControlNet surmonte facilement le problème de cohérence spatiale en permettant aux modèles de diffusion stables d’utiliser des conditions d’entrée complémentaires pour comprendre le modèle. Les chercheurs qui ont développé ControlNet ont partagé que ControlNet permet même de s’entraîner sur un GPU avec huit gigaoctets de mémoire graphique.
ControlNet est certainement un exploit incroyable car il a été formé de telle manière qu’il reconnaît des conditions allant des cartes de bord et des points clés aux cartes de fragments. C’est un excellent ajout aux technologies de génération d’images déjà populaires, et en agrandissant de grands ensembles de données et avec l’aide de Stable Diffusion, il peut être utilisé dans diverses applications pour un meilleur contrôle de la génération d’images.
scanner le papier Et github. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Tania Malhotra est en dernière année à l’Université d’études pétrolières et énergétiques de Dehradun, poursuivant un BTech en génie informatique avec une spécialisation en intelligence artificielle et en apprentissage automatique.
Elle est passionnée par la science des données et possède une bonne pensée analytique et critique, ainsi qu’un vif intérêt pour l’acquisition de nouvelles compétences, la direction de groupes et la gestion du travail de manière organisée.