Generating High-Quality F0 Embeddings Using the Vector-Quantized Variational Autoencoder
Název česky | Generování vysoce kvalitních F0 vektorových reprezentací pomocí vektorově kvantizovaného variačního autoenkodéru |
---|---|
Autoři | |
Rok publikování | 2024 |
Druh | Článek ve sborníku |
Konference | Text, Speech, and Dialogue |
Fakulta / Pracoviště MU | |
Citace | |
Doi | http://dx.doi.org/10.1007/978-3-031-70566-3_13 |
Klíčová slova | Fundamental Frequency; Prosody; VQ-VAE; Vector Embeddings |
Popis | Jazykové modely fungující na diskrétních audio reprezentacích se stále více stávají oblíbeným rámcem pro mnoho úloh zpracování řeči. Nedávno bylo prokázáno, že diskrétní vektorové reprezentace základní frekvence (F0) zlepšují výkon napříč různými úlohami. Avšak výhody použití F0 vektorových reprezentací jsou omezené kvalitou samotných reprezentací. Proto v tomto článku představujeme důkladnou studii, která se zaměřuje na použití vektorově kvantizovaného variačního autoenkodéru (VQ-VAE) ke generování vysoce kvalitních reprezentací křivky F0. Experimentujeme s různými vstupními transformacemi, které se soustředí na zpracování neznělých oblastí F0, což jsou oblasti, kde F0 není definována. Pro každou transformaci provádíme důkladné vyhledávání optimální velikosti reprezentací a velikosti kódující knihovny, abychom dosáhli co nejvyšší kvality reprezentací. Naše experimenty jsou prováděny na dvou datových sadách různé velikosti, LJSpeech a LibriTTS, a celkem zahrnují více než 140 různých experimentálních nastavení. Dosahujeme výsledků v rozmezí od 0,53 % do 4,29 % chybovosti v metrice FFE, v závislosti na použité datové sadě a strategii předzpracování, a naše nejlepší modely publikujeme na webu HuggingFace. |
Související projekty: |