StyleFusion TTS: Multimodal Style-Control and Enhanced Feature Fusion for Zero-Shot Text-to-Speech Synthesis

Zhiyong Chen, Xinnuo Li^*, Zhiqi Ai, Shugong Xu^*

^*Corresponding author for this work

Shanghai University

Research output: Chapter in Book or Report/Conference proceeding › Conference Proceeding › peer-review

Computer Science