2026年1月29日,商汤科技宣布正式开源多模态自主推理模型SenseNova-MARS,提供8B与32B双版本。该模型在MMSearch、HR-MMSearch等多模态搜索与推理基准测试中取得69.74分,超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),成为开源模型中的SOTA。SenseNova-MARS是首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型,具备自主规划步骤、调用工具的能力,可完成多步骤推理与多工具协作的复杂任务。例如,面对“识别赛车服微小Logo→查询公司成立年份→匹配车手出生年月→计算差值”的任务,模型可自主调用图像裁剪、图像搜索和文本搜索工具,无需人工干预完成闭环解答。模型采用双阶段训练机制:第一阶段基于多模智能体自动化数据合成引擎,构建高复杂度多跳推理链路;第二阶段引入强化学习与BN-GSPO算法,保障训练稳定性与收敛性。SenseNova-MARS的模型权重、训练代码及合成数据集已全部开源,支持Hugging Face平台直接下载。
