过去两年,图像生成模型多采用“直接出图”模式,但传统文生图模型在处理涉及真实世界知识的任务时,常因缺乏面向真实世界的Agent能力而表现不佳。为此,研究团队推出了Gen-Searcher,首次尝试为图像生成任务训练具备“深度搜索”能力的智能体,使模型能够像Agent一样进行搜索和推理。研究团队构造了生成数据,并提出了KnowGen基准。Gen-Searcher的核心在于将信息获取过程转化为可训练的Agent,配备三类工具,分两阶段进行训练,并引入了双奖励反馈机制。实验结果表明,Gen-Searcher显著提升了图像生成的准确性和质量,展示了Agentic生成在知识密集型图像生成任务中的巨大潜力,为构建一体化生成系统提供了新路径,标志着生成系统向Agentic时代迈出了重要一步。
