OpenAI推出了名为GPT-realtime的语音模型,专为语音AIAgent设计,具备多模态功能。该模型能生成自然流畅的语音,模仿人类语调、情感和语速,还支持图像理解,并能与语音或文本对话结合。GPT-realtime适用于客服、教育、金融、医疗等领域,用于构建语音智能体。此外,该模型新增了Marin与Cedar两种特色语音,并对原有8种语音进行了全面升级。