Microsoft a présenté en avant-première un système de reproduction vocale, VALL-E, qui est un synthétiseur audio de synthèse vocale capable de transcrire la voix d’une personne avec trois secondes d’audio.
Microsoft a présenté en avant-première un système de reproduction vocale, appelé VALL-E, qui peut simuler la voix de quelqu’un avec pas plus de trois secondes d’audio de la personne choisie.
VALL-E utilise la technologie de synthèse vocale pour convertir les mots écrits en paroles et a été formé sur 60 000 heures d’anglais parlé avec 7 000 sons uniques de LibraLight, l’ensemble de données de livres audio publics.
Voir également: ChatGPT peut-il contester la recherche Google ?
Microsoft a présenté la technologie en avant-première sur arXiv, un site universitaire, mais ne l’a pas mise gratuitement à la disposition du public. La société n’a pas non plus confirmé si elle prévoyait d’annoncer publiquement VALL-E ou son objectif.
Dans l’aperçu, Microsoft déclare que VALL-E manque d’une variété d’accents, qui sont principalement fabriqués par des anglophones natifs, et les mots composés sont souvent flous ou manquants. Cependant, les chercheurs affirment également qu’il « surpasse considérablement » les systèmes les plus avancés disponibles aujourd’hui.
Bien que VALL-E soit une référence à DALL-E, le système d’image générative d’OpenAI, les deux ne sont pas liés et OpenAI n’est pas un partenaire de recherche de premier plan de VALL-E.
Les problèmes éthiques abondent avec une technologie comme celle-ci, comme nous pouvons déjà le voir avec les systèmes de synthèse vocale moins avancés qui ont recueilli les votes des célébrités et des politiciens. Les chercheurs de Microsoft en ont discuté dans l’aperçu :
Étant donné que VALL-E peut synthétiser la parole qui préserve l’identité du locuteur, il peut présenter des risques potentiels d’abus de modèle, tels que l’usurpation de reconnaissance vocale ou l’usurpation d’identité d’un locuteur spécifique. Nous avons mené les expériences en supposant que l’utilisateur accepte d’être le locuteur cible dans la synthèse vocale. Si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour s’assurer que le locuteur consent à l’utilisation de sa voix et un modèle de détection de la parole synthétisée.
On ne sait pas comment ce protocole sera intégré dans la pratique, et il semble que Microsoft n’ait pas encore correctement réfléchi à la manière dont les fraudeurs peuvent utiliser de courts clips audio pour tromper les gens par téléphone et en ligne. Cependant, le fait que VALL-E ne soit pas rendu public est un peu l’assurance que l’entreprise comprend les risques encourus.
Les experts et les initiés de l’IA considèrent que Microsoft est derrière Google et les méta-plateformes dans l’évolution et la portée de l’IA, cependant, son investissement dans OpenAI et la licence exclusive du modèle de base GPT-3 lui ont fourni un chemin potentiel pour revenir au premier plan.
Cette semaine, il a annoncé un investissement “d’un milliard de dollars” dans OpenAI, rapprochant les deux sociétés et fournissant potentiellement à Microsoft les premières informations sur GPT-4, qui devrait être un autre grand pas en avant dans l’évolution des modèles fondamentaux.
Les systèmes génératifs semblent être l’histoire de l’IA pour 2023, avec ChatGPT de plus en plus populaire et DALL-E étant le catalyseur de la sortie de centaines d’applications d’édition de photos génératives, dont certaines ont atteint le sommet des classements iPhone et Android App Store aux Etats-Unis.