MiniMax开源代码智能体评测基准OctoCodingBench
5 天前

2026年1月14日,人工智能公司MiniMax宣布开源代码智能体系统性评测集OctoCodingBench,这是业内首个专门面向Coding Agent设计的综合性评估基准。该评测集用于评估智能体在代码仓库环境中的指令遵循能力,结果显示,所有模型的Check-level准确率(CSR)超80%,但Instance-level成功率(ISR)仅10%-30%,过程合规仍是盲区,开源模型正快速追赶闭源模型。