2026年1月12日,红杉中国旗下xbench与UniPat AI团队联合发布多模态理解评测集BabyVision,旨在评估大模型不依赖语言提示的纯视觉基础能力。结果显示,主流大模型表现落后于3岁幼儿水平。该评测集将视觉能力分为精细辨别、视觉追踪、空间感知、视觉模式识别四大类,共22项子任务、388道题。