Nous avons formé un réseau de neurones open source appelé Whisper qui se rapproche de la robustesse et de la précision au niveau humain dans la reconnaissance de la parole en anglais.
Lire le papier
Afficher le code
Voir l’exemple de carte
Whisper est un système de reconnaissance automatique de la parole (ASR) qui a été formé sur 680 000 heures de données multilingues et multitâches modérées collectées sur le Web. Nous montrons que l’utilisation d’un ensemble de données aussi vaste et diversifié améliore la robustesse des accents, du bruit de fond et du langage technique. De plus, il permet la transcription dans plusieurs langues, ainsi que la traduction de ces langues vers l’anglais. Nous ouvrons des modèles source et du code d’inférence pour servir de base à la création d’applications utiles et à des recherches plus approfondies sur le traitement robuste de la parole.
L’architecture Whisper est une approche simple de bout en bout, implémentée comme un commutateur de décodeur. L’audio entrant est divisé en segments de 30 secondes, converti en un spectrographe logarithmique, puis transmis à un encodeur. Le décodeur est formé pour prédire le commentaire textuel correspondant, mélangé à des jetons spéciaux qui dirigent le modèle individuel pour effectuer des tâches telles que l’identification de la langue, les horodatages au niveau de la phrase, la transcription vocale multilingue et la traduction vocale en anglais.
D’autres approches actuelles utilisent souvent des ensembles de données de formation audiotexte plus petits et plus appariés, Ou utilisez une formation vocale approfondie mais non supervisée. Parce que Whisper a été formé sur un ensemble de données vaste et diversifié et n’a pas été réglé sur un ensemble spécifique, il ne surpasse pas les modèles spécialisés dans l’exécution de LibriSpeech, une référence concurrentielle populaire en reconnaissance vocale. Cependant, lorsque nous mesurons les performances de Whisper à partir de zéro sur de nombreux ensembles de données divers, nous constatons qu’il est plus robuste et produit 50 % moins d’erreurs que ces modèles.
Environ un tiers de l’ensemble de données audio de Whisper n’est pas en anglais, et il est alternativement chargé de transcrire dans la langue d’origine ou de traduire en anglais. Nous trouvons que cette approche est particulièrement efficace pour apprendre la traduction parole-texte et surpasse la traduction SOTA vers l’anglais supervisée de CoVoST2 sans coup férir.
Nous espérons que la plus grande précision et la facilité d’utilisation de Whisper permettront aux développeurs d’ajouter des interfaces audio à une plus large gamme d’applications. Consultez la feuille, l’exemple de carte et le code pour plus de détails et l’expérience Whisper.