VALL-E : l’IA qui imite une voix à partir de 3 secondes d’enregistrement

L'USINE DIGITALE, 19/01/2023

Partagé par : 

Beesens TEAM

VALL-E : l’IA qui imite une voix à partir de 3 secondes d’enregistrement

"Après DALL-E, qui génère des images, et ChatGPT, le robot conversationnel qui rédige tout type de textes (de la dissertation de philo aux codes informatiques complexes), développés par OpenAI, Microsoft complète la famille des IA avec VALL-E, un modèle d’intelligence artificielle de synthèse vocale particulièrement efficace.

Mis en ligne sur GitHub par Microsoft et décrit dans un document de quinze pages rédigé par les ingénieurs à l’origine du projet, publié sur le site de recherche arXiv le 5 janvier, ce "modèle de langage à codecs neuronaux" permet d’imiter une voix grâce à un échantillon de 3 secondes seulement. Après l'avoir écoutée, il peut la reproduire en lisant un texte. VALL-E conserve le ton, le timbre et reproduit même l’environnement acoustique de l’audio d’origine (une voix compressée dans un appel téléphonique par exemple).

La démo de VALL-E accessible à tous

VALL-E s’est fait la main (ou plutôt la voix) en s'entraînant sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox. "Un entraînement des centaines de fois plus important que pour les systèmes existants", soulignent les chercheurs.." Lire la suite