Inworld AI发布了Inworld TTS-1.5实时语音AI模型,该模型被誉为当前速度最快、质量最优的语音生成工具。其中,1.5 Max版本的首声延迟P90低于250毫秒,而1.5 Mini版本更是低于130毫秒,速度较上一代提升了4倍。Max版本不仅音质卓越、速度快,还具备丰富的语音表现力。经过改进,TTS-1.5的表现力提升了30%,词错误率降低了40%,有效减少了幻听等问题,生成的语音更加接近真人。此外,该模型还增强了对多语言的支持,现已覆盖15种语言,且成本较其他方案降低了25倍以上。1.5 Max版本适用于大多数应用场景,而1.5 Mini版本则针对对延迟高度敏感的应用进行了优化。
