OpenAI近日正式发布GPT-Realtime-1.5模型,作为“音频输入、音频输出”的旗舰级语音模型,专为语音代理与客户服务场景设计。该模型支持文本、音频和图像输入,输出包括文本与音频,拥有32,000上下文窗口及最高4,096输出Token。GPT-Realtime-1.5适用于实时对话、语音转录及多模态交互等场景,已集成至Realtime API端点。定价方面,音频输入每百万Token 32美元,输出64美元;文本输入4美元,输出16美元。目前该模型面向符合条件的开发者开放,需通过OpenAI API调用。
