Vous chantez, je joue ! Découvrez SingSong : un modèle d'IA qui génère de la musique pour chanter

Création d’image, génération de vidéo, génération de texte, etc. Les modèles d’IA générative sont devenus plus puissants récemment. Ils peuvent créer des images, des vidéos et des morceaux de texte qui sont devenus difficiles à séparer de ceux créés par les humains.

La saga de l’IA générative continue de nous impressionner avec ses cas d’utilisation uniques. Par exemple, nous avons vu un modèle capable de créer des vidéos 3D pour les applications AR/VR, ce qui est possible en décrivant ce que vous voulez voir. D’autre part, nous avons vu un modèle capable de générer de la musique à partir d’invites de texte.

En parlant de composition musicale, si vous avez déjà essayé de créer votre propre musique, vous savez que trouver une bonne mélodie n’est que la moitié de la bataille. L’autre moitié consiste à trouver le compagnon idéal qui complète la mélodie et lui donne ce son de studio professionnel. Mais que se passe-t-il si vous n’avez pas les compétences ou les ressources nécessaires pour produire de la musique instrumentale qui convient à votre voix ? Ne vous inquiétez plus car nous l’avons chante une chanson Désormais, un nouvel outil alimenté par l’IA génère des accompagnements musicaux à partir du chant.

🚨 Lisez notre dernière newsletter AI🚨

chante une chanson Capable d’accompagner votre voix avec la bonne musique instrumentale. Disons que vous vous enregistrez en train de lire de l’audio et que vous souhaitez ajouter de la musique instrumentale à cet enregistrement. Dans ce cas, vous pouvez donner votre voix à SingSong, qui générera la musique pour vous, et vous aurez une chanson pour vous.

chante une chanson Cela a été rendu possible grâce aux progrès réalisés dans deux domaines majeurs de la technologie musicale. Le premier est Séparation à la source Qui est utilisé pour séparer les voix des sources instrumentales dans la musique. Cet ensemble de données est aligné en paires de chansons et de sources automatisées et utilisé pour la formation. La seconde est Modélisation générative du son. Ils utilisent cette forme pour passer du chant à la musique instrumentale, n’importe quel, Générer un son en son conditionnel.

La technologie était là, mais son intégration n’était pas aussi simple que le plug and play. Le plus grand défi consistait à concevoir un système capable de traiter efficacement les entrées audio isolées des utilisateurs à l’aide des entrées audio séparées vues pendant la formation. Au départ, les modèles qu’ils ont construits visaient à reconstruire les sons des instruments à partir des artefacts à peine audibles présents dans les voix détachées. Lorsque c’était le cas, le son résultant était bizarre et n’allait pas avec les chansons.

La solution à cela consistait à ajouter du bruit à l’entrée audio pour masquer les artefacts et à utiliser les représentations intermédiaires plus simples du modèle son-voix comme entrée de conditionnement.

Pour évaluer les performances de SingSong, les chercheurs de Google ont mené une auto-étude dans laquelle des auditeurs aléatoires ont été invités à évaluer la musique qu’ils avaient entendue. Celles-ci comprenaient de la musique créée avec SingSong et une ligne de base dans laquelle les caractéristiques musicales du chant sont utilisées comme requête pour récupérer des instruments de musique écrits par des humains. Par rapport aux instruments obtenus à partir de la ligne de base de récupération, les auditeurs ont préféré les instruments obtenus à partir de SingSong 66 % du temps. De plus, les auditeurs ont préféré les instruments générés par SingSong 34% du temps par rapport aux vrais instruments originaux.

Total, chante une chanson est un développement passionnant qui a le potentiel de démocratiser la production musicale et de donner à plus de gens les outils dont ils ont besoin pour créer de superbes chansons.


scanner le papier Et projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Ekrem Cetinkaya est titulaire d’un baccalauréat. en 2018 et MA. en 2019 de l’Université Ozyegin, Istanbul, Turquie. Il a écrit sa maîtrise. Thèse sur la réduction du bruit d’image à l’aide de réseaux convolutifs profonds. Il poursuit actuellement son doctorat. diplôme à l’Université de Klagenfurt, en Autriche, et travaille comme chercheur sur le projet ATHENA. Ses intérêts de recherche incluent l’apprentissage profond, la vision par ordinateur et les réseaux multimédias.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال