微软近日推出轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,支持流式文本输入与长语音输出,首音延迟约300毫秒,适用于代理对话、实时数据播报等场景。该模型采用交错窗口设计,在LibriSpeech测试集上零样本字错误率达2.00%,支持中英文转录与语音生成,最长可稳定输出90分钟语音,支持多角色对话和情感表达。