阿里巴巴发布Qwen3-Omni-Flash全模态大模型支持实时流式响应
2025-12-11

2025年12月9日,阿里巴巴Qwen团队发布新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图像、音频和视频无缝输入,通过实时流式响应同步生成高质量文本与自然语音,语音自然度逼近真人水平。模型支持119种文本语言交互、19种语音识别语言和10种语音合成语言,确保跨语言场景下的准确响应。新模型在逻辑推理、代码生成、多学科视觉问答等性能指标上有显著提升,并开放了系统提示自定义权限,用户可精细调控模型行为模式,设定特定人设风格。该模型已通过API上线,并集成至Qwen Chat Demo,支持实时生成带画面口播的视频。