据MarkteChpost报道,Inworld AI正式推出语音模型Realtime TTS-2,该模型采用闭环系统架构,革新了语音交互体验。Realtime TTS-2突破了传统文本转语音的限制,能够实时处理对话音频,精准感知用户的语调、节奏和情感状态,从而实现更自然、拟人化的交流。该模型具备四大核心功能:支持开发者通过自然语言提示精准调控语音表达;基于闭环架构实现对话语境感知,自动延续情感与语调;提供跨语言支持,同一声音身份可无缝切换100多种语言;创新“高级语音设计”功能,仅需文本描述即可生成可复用语音,无需音频样本。技术层面,Realtime TTS-2通过单Websocket连接整合Realtime STT、路由器及TTS层,确保200毫秒内响应,生成的语音包含自然停顿、语气词等拟人化特征,支持语音克隆,适配多场景应用。此次发布标志着Inworld AI从音质竞争转向行为层创新,Realtime TTS-2在Artificial Analysis Speech Arena中位列榜首,展现了其技术领先性,将助力AI交互迈向更具情感理解力的“类人沟通”时代。
