蚂蚁集团开源全模态大模型Ming-flash-omni 2.0

3 天前

2026年2月11日，蚂蚁集团正式开源发布全模态大模型Ming-Flash-Omni 2.0。该模型是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。用户通过自然语言指令，即可精细控制音色、语速、语调、音量、情绪及方言等参数。在推理阶段，模型实现了3.1Hz的极低推理帧率，支持分钟级长音频的实时高保真生成。在多项公开基准测试中，Ming-Flash-Omni 2.0在视觉语言理解、语音可控生成、图像生成与编辑等关键能力上表现突出，部分指标超越Gemini 2.5 Pro。目前，该模型的模型权重与推理代码已在Hugging Face等开源社区发布，开发者也可通过蚂蚁百灵Ling Studio平台在线体验与调用。

上一篇：DuckDuckGo新增实时语音聊天功能

下一篇：OpenAI力推成人内容女高管反对被以“性别歧视”为由解雇

返回列表

热文阅读

1 天前

又一家2万亿级AI独角兽诞生

2 天前

最贵特斯拉终于量产，一辆卖200万

2 天前

特斯拉 Semi 电动卡车售价曝光：标准续航版 25 万美元，长续航版 29 万美元

2 天前

奥特曼“倒向”广告背后：OpenAI财务告急，AI变现刻不容缓