2026年3月2日,阿里云通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD,支持通过自然语言指令直接控制语音生成效果。Fun-CosyVoice3.5支持多语种复刻与精细化表达控制,新增泰语等4种语言,生僻字读错率从15.2%降至5.3%,长文本朗读更稳定流畅,首包延迟降低35%,实时交互响应更快。Fun-AudioGen-VD支持声音设计与场景化音频生成,可生成目标音色、情绪表达和完整听觉场景,打造沉浸式听觉体验。两款模型均面向开发者开放API调用。
