火山引擎发布豆包语音识别模型2.0提升多语种识别精度
1 天前

火山引擎近日推出豆包语音识别模型2.0(Doubao - Seed - ASR - 2.0),该版本推理能力显著提升,支持多语言及视觉信息精准识别。模型继承了前作高性能音频编码器的优势,优化了复杂场景下的识别效果,依托先进的PPO方案实现精准识别。同时,它具备多模态理解能力,可结合图像内容进行语音识别,避免识别偏差。模型支持13种海外语言,拓展了跨语言应用场景。目前,该模型已正式上线并提供API服务,未来将持续进化。此次发布展示了火山引擎在语音识别领域的创新能力和技术实力,预计将带来积极影响。