火山引擎发布豆包语音识别模型2.0提升多语种识别精度

1 天前

火山引擎近日推出豆包语音识别模型2.0（Doubao - Seed - ASR - 2.0），该版本推理能力显著提升，支持多语言及视觉信息精准识别。模型继承了前作高性能音频编码器的优势，优化了复杂场景下的识别效果，依托先进的PPO方案实现精准识别。同时，它具备多模态理解能力，可结合图像内容进行语音识别，避免识别偏差。模型支持13种海外语言，拓展了跨语言应用场景。目前，该模型已正式上线并提供API服务，未来将持续进化。此次发布展示了火山引擎在语音识别领域的创新能力和技术实力，预计将带来积极影响。

上一篇：AI服务器需求“狂飙” 鸿海营收劲增26%

下一篇：OpenAI 推出 GPT-5.1-Codex-Max，GitHub Copilot 支持预览

返回列表

热文阅读

2 天前

英特尔宣布保留NEX网络部门，放弃剥离计划

2 天前

“静音”结束？幻方重返舞台中央

2 天前

GPT-5-Thinking新训练方法公开：让AI学会忏悔

2 天前

黄仁勋：未来两三年90%的新知识由AI合成