微软官方宣布,近日推出开源文本转语音(TTS)模型VibeVoice。该模型专注于生成表现力丰富、时长较长且包含多说话人的对话式音频,如播客,旨在攻克传统TTS系统在可扩展性、说话人语音一致性和自然对话转折方面的难题。