Bibliographie complète
Meta Learning Text-to-Speech Synthesis in over 7000 Languages
Type de ressource
Web Page
Auteurs/contributeurs
- Lux, Florian (Author)
- Meyer, Sarina (Author)
- Behringer, Lyonel (Author)
- Zalkow, Frank (Author)
- Do, Phat (Author)
- Coler, Matt (Author)
- Habets, Emanuël A. P. (Author)
- Vu, Ngoc Thang (Author)
Title
Meta Learning Text-to-Speech Synthesis in over 7000 Languages
Abstract
In this work, we take on the challenging task of building a single text-to-speech synthesis system that is capable of generating speech in over 7000 languages, many of which lack sufficient data for traditional TTS development. By leveraging a novel integration of massively multilingual pretraining and meta learning to approximate language representations, our approach enables zero-shot speech synthesis in languages without any available data. We validate our system's performance through objective measures and human evaluation across a diverse linguistic landscape. By releasing our code and models publicly, we aim to empower communities with limited linguistic resources and foster further innovation in the field of speech technology.
Website Title
Date
2024/06/10
Accessed
02/10/2024 12:08
Language
en
Notes
demo : https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS
testé démo avec breton. le son est naturel et facile à comprendre, mais fait des erreurs sur certains graphèmes. comme qqun qui n'a pas appris la langue et essaie de deviner comment prononcer. dansles résultats du papier, pour le breton, les notes données par des bretons vont de nul à très bien, je soupçonne que ça dépend de si un graphème problématique se trouvait dans la phrase
utilise un phonétiseur! transphone (même auteur que allosorus)
éval quantitative faite sur ASR auto avec whisper, so je questionne la qualité. éval qualitative fait avec des humains natifs so mieux
une Anaïs Scornet citée contact pour le breton
Référence
Lux, F., Meyer, S., Behringer, L., Zalkow, F., Do, P., Coler, M., Habets, E. A. P., & Vu, N. T. (2024, June 10). Meta Learning Text-to-Speech Synthesis in over 7000 Languages. ArXiv.Org. https://arxiv.org/abs/2406.06403v1
Tâche
Lien vers cette notice