Les modèles génératifs profonds ont récemment fait des progrès qui ont démontré leur capacité à générer des échantillons réalistes de haute qualité dans divers domaines, y compris les images, le son, les décors 3D, les langages naturels, etc. Plusieurs études se sont activement concentrées sur la tâche plus difficile de la synthèse vidéo comme prochaine étape. En raison des grandes dimensions et de la complexité des vidéos, qui ont une dynamique spatio-temporelle complexe dans des images haute résolution, la qualité de création des vidéos doit encore être améliorée par rapport aux vidéos réelles, contrairement au succès dans d’autres domaines. Les efforts récents pour créer des modèles de diffusion pour les vidéos ont été motivés par le succès des modèles de diffusion dans la gestion de collections d’images volumineuses et complexes.
Ces techniques, similaires à celles utilisées dans les domaines de l’image, se sont révélées très prometteuses pour modéliser plus précisément la distribution vidéo avec évolutivité (résolution spatiale et durées temporelles), voire obtenir des résultats de génération réalistes. Malheureusement, comme les modèles de diffusion nécessitent de nombreuses opérations répétées dans l’espace d’entrée pour collecter des échantillons, ils ont besoin d’une meilleure efficacité de calcul et de mémoire. En raison de la construction de la matrice RVB cubique, de tels goulots d’étranglement dans la vidéo sont nettement plus visibles. Cependant, de nouveaux efforts dans la production d’images ont développé des modèles de diffusion latente pour surmonter les lacunes de calcul et de mémoire des modèles de diffusion.
Saisir. Au lieu d’entraîner le modèle sur des pixels bruts, les méthodes de diffusion latente entraînent un encodeur automatique pour reconnaître rapidement des images de paramètres d’espace latent de faible dimension, puis modéliser cette distribution latente. Il est surprenant de constater que cette technique a grandement amélioré l’efficacité de la synthèse d’échantillons et même obtenu des résultats de génération avancés. Malgré son potentiel attractif, les vidéos n’ont pas encore reçu la considération qu’elles méritent dans l’établissement d’un modèle de diffusion latente. Ils fournissent un nouveau modèle de propagation latente pour les films appelé diffusion vidéo latente prédite (PVDM).
🚨 Lisez notre dernière newsletter AI🚨
elle a deux Plus précisément les étapes (voir la figure 1 ci-dessous pour une explication générale) :
• Auto-encodeur: En factorisant la structure matricielle cubique complexe des films, ils décrivent un encodeur automatique qui visualise une vidéo à trois vecteurs latents avec des images 2D. Pour coder les pixels vidéo 3D sous la forme de trois vecteurs latents 2D condensés, ils proposent notamment des projections 2D 3D de films dans chaque direction spatio-temporelle. Pour paramétrer les composants vidéo courants (tels que l’arrière-plan), ils génèrent un vecteur latent qui s’étend sur la direction temporelle. Les deux derniers vecteurs sont ensuite utilisés pour coder le trafic vidéo. En raison de leur structure semblable à une image, ces vecteurs latents 2D sont utiles pour obtenir un codage vidéo concis de haute qualité et créer une architecture de modèle de propagation efficace sur le plan informatique.
• modèle de diffusion: Pour représenter la distribution des vidéos, ils ont créé une nouvelle structure de modèle de diffusion basée sur un espace latent de type image 2D généré par leur auto-encodeur vidéo. Ils évitent les architectures de réseaux de neurones convolutifs 3D à forte intensité de calcul souvent utilisées pour le traitement des films, car ils standardisent les vidéos en tant que représentations latentes de type image. Leur conception, qui a fait ses preuves en traitement d’images, repose plutôt sur l’architecture d’un modèle de diffusion en réseau convolutif 2D. Pour créer un long métrage de n’importe quelle durée, ils offrent également une combinaison de formation en modélisation générative inconditionnelle et conditionnelle.
Ils utilisent UCF101 et SkyTimelapse, deux ensembles de données populaires pour évaluer les techniques de création vidéo, pour confirmer l’efficacité de leur méthode. Le score de départ (IS ; plus c’est gros, mieux c’est) dans l’UCF-101, une mesure typique de la production vidéo agrégée, montre que le PVDM génère des films à 16 images et 256 256 résolutions dans un score récent de 74,40. En termes de distance vidéo Fréchet (FVD ; moins c’est mieux), il fait grimper significativement le score de 1773,4 sur l’état de l’art précédent à 639,7 sur l’UCF-101 tout en synthétisant des longs métrages (128 images) avec une qualité de 256,256.
De plus, leur modèle présente une efficacité de mémoire et de calcul significative par rapport aux modèles de publication vidéo précédents. Par exemple, un modèle de déploiement vidéo nécessite pratiquement toute la mémoire (24 Go) sur un seul GPU NVIDIA 3090Ti de 24 Go pour s’entraîner avec une résolution de 128128 avec une taille de lot de 1. Le PVDM, en revanche, ne peut être entraîné que sur ce GPU. avec 16 films Le cadre a une résolution de 256 x 256 et une taille de lot ne dépassant pas 7. Le PVDM proposé est le premier modèle de diffusion latente créé spécifiquement pour la composition vidéo. Leur travail aidera la recherche sur la création vidéo à évoluer vers une synthèse vidéo efficace en temps réel, à haute résolution et de longue durée tout en travaillant dans les limites de la faible disponibilité des ressources de calcul. PyTorch sera bientôt rendu open source.
scanner le papierEt github Et Page du projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Anish Teeku est consultant stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Ses intérêts de recherche portent sur le traitement d’images et il est passionné par la création de solutions autour de celui-ci. Aime communiquer avec les gens et collaborer sur des projets intéressants.