MiniMax开源代码智能体评测基准OctoCodingBench - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

MiniMax开源代码智能体评测基准OctoCodingBench

5 天前

2026年1月14日，人工智能公司MiniMax宣布开源代码智能体系统性评测集OctoCodingBench，这是业内首个专门面向Coding Agent设计的综合性评估基准。该评测集用于评估智能体在代码仓库环境中的指令遵循能力，结果显示，所有模型的Check-level准确率（CSR）超80%，但Instance-level成功率（ISR）仅10%-30%，过程合规仍是盲区，开源模型正快速追赶闭源模型。

上一篇：中信证券：“自主可控、AI算力”有望成为电子行业贯穿全年的绝对强主线

下一篇：Google Gemini推“个人智能”功能，支持个性化助理服务

返回列表

热文阅读

2 天前

咖啡机变聪明后，我连咖啡都喝不上了

2 天前

飞书史上第一次硬件合作，和安克创新做了一款「AI录音豆」

1 天前

“擦边”哪有AI编程香？马斯克终于想通了

2 天前

前第四范式总裁创业，用营销AI Agent解构内容社交平台的“营销玄学”，已获千万元融资