据9to5Mac报道,苹果公司与威斯康星大学麦迪逊分校联合发布了名为RubiCap的全新AI训练框架,旨在突破现有模型在“密集图像描述”领域的学习瓶颈。密集图像描述技术能识别图像中的局部区域,如“桌子上的红苹果”,并为每个细节生成精准的文字说明。该技术对训练视觉语言模型、文本生成图像及改善无障碍工具等领域具有核心价值。传统训练方法面临人工标注成本高、合成数据多样性不足等问题。为此,苹果研究团队创新设计了强化学习机制:系统从数据集中抽取5万张图像,调用GPT-5、Gemini 2.5 Pro等前沿大模型生成候选描述;随后利用Gemini 2.5 Pro分析提炼共识与遗漏点,转化为清晰的评分标准;最后由Qwen2.5模型根据标准打分,为模型提供结构化反馈。基于该框架,苹果训练出了参数量分别为20亿、30亿和70亿的三个RubiCap模型。测试数据显示,这些紧凑型模型效率惊人,其中70亿参数模型在盲测中排名第一,幻觉错误率最低,全面超越了参数量高达720亿的前沿大模型。更值得一提的是,30亿参数的微型模型在部分测试中甚至反超了70亿参数版本,证明高质量图像描述模型可摆脱对庞大参数量的依赖。
