科学“养虾”指南
14 小时前 / 阅读约11分钟
来源:36kr
腾讯、字节、阿里云推出OpenClaw类AI产品,PinchBench发布基准测试工具,评测大模型驱动OpenClaw在真实任务中的表现。评测结果显示国产模型性能达国际顶尖水平,但免费安装背后存在隐性成本和安全隐患。

“龙虾”热潮正持续升温。周一刚开工,腾讯旗下的Qclaw(龙虾)开启内测,字节跳动的ArkClaw(龙虾)也已正式上线火山引擎平台,而,阿里云则在更早推出了同类产品 CoPaw。与此同时,工信部迅速发布相关公告,对该领域存在的安全风险作出预警。

对于普通用户而言,这场突如其来的技术热潮,既是一次接触前沿AI应用的难得机遇,也如同一片难以看清的迷雾,让人难以判断背后的价值与风险。

所幸,在行业喧嚣的当下,由Kilo.ai开发的开源基准测试工具PinchBench及时发布,为所有关注这一领域的用户,提供了一个极具价值的理性判断锚点:

官网:https://pinchbench.com/

GitHub项目地址:https://github.com/pinchbench/skill

01 基准测试:如何给AI智能体打分?

事实上,OpenClaw已经是一个发布了两个月的产品,在它还叫做ClawdBot的时候就已经引发过技术社区的疯狂讨论。

如今,它又引发了一个有趣的现象:先行者已经对它去魅,试图通过阐述其能力边界来呼吁理性思考;后来者仍然十分狂热,哪怕尚未理解产品定位和使用目标。

在前面的文章中,我们已经提到过,OpenClaw本身做不了任何事,能驱动它干活的,其实是底层的大语言模型。换句话说,人们在OpenClaw上花的钱,正是大语言模型的API费用。

而自打AI进入智能体时代以后,作为“大脑”和底层基础设施的大语言模型(LLM)到底好不好用,越来越依赖于主观口碑。

但PinchBench试图打破这一现状,该基准测试是专门为OpenClaw而设计,用于测试大语言模型驱动OpenClaw在真实任务中的表现。

由于Agent的核心任务就是帮人们干活,因此这项基准测试与以往的跑分测试的侧重点有所不同:它涵盖了日程安排、代码编写甚至市场研究等23项标准化任务。

其设计逻辑也十分清晰:所有任务都以Markdown文件配合YAML元数据的形式开源在GitHub上的pinchbench/skill仓库,每项任务中包含提示词、预期行为、评分标准、自动化检查函数和LLM评判规则五个核心要素。

相比于科学题目的正确性和代码的质量,衡量真实任务的完成情况显然要更加复杂。

为了尽可能客观反映大模型驱动OpenClaw的真实能力,PinchBench使用了“自动化+LLM评判+混合”三级架构的评分机制。

其中,Python函数能够自动验证文件创建、关键词匹配等易于判断是否成功的客观指标,而Claude Opus等顶尖模型则用于给内容质量、分析深度等主观维度打分。

如果上述专业词汇难以理解,别担心,我们用两个实际的测试任务来说明。

第一道题是skills仓库中的task no.21:OpenClaw报告理解。

在这项任务中,大语言模型需要驱动OpenClaw阅读一份名为openclaw_report.pdf的研究报告,并回答8个具体的问题,比如:

“过滤前社区内的技能总共有多少?(正确答案5705)”

“第二大类别的技能是什么?(正确答案Search & Research: 253)”

这项任务可以完全由程序自动化评分。Python脚本会检查生成的answer.txt文件,不仅会核对数字是否精准匹配,还会用正则表达式验证日期格式以及关键词是否存在。

评分标准也相当严格,哪怕答对7道题,在最后一个简单问题上只要错了一位数字,得分也是零。这种设计正是为了考察智能体最基本的结构化和非结构化信息提取能力精确执行能力。

第二道题是skills仓库中的task no.16:竞争市场研究。

相比于前面的任务,这项任务更贴近用户的实际应用场景,要求智能体生成一份企业级的应用性能监控市场竞争分析报告。

要完成这项任务,智能体需要经过识别头部厂商、分析差异化定位、梳理定价模式、输出结构化Markdown文档等复杂环节,这对于人类来说也是一项工作量相当大的任务。

因此,这项任务采用混合评分,自动化部分负责检查“是否写够5个竞品”、“有无对比表格”等评判标准,研究质量、分析洞察则交给顶尖模型打分,打分标准甚至会精细到“风格是否接近于人类商业分析师”、“趋势是否与真实商业动态吻合”。

02 评测结果:国产模型强势突围

在了解评测机制以后,我们来一起看看评测结果。

PinchBench将评测结果划分为三个维度:成功率、速度和成本。

成功率方面,排名第一的选手来自Google,但令人意外的是,不是智能化程度最高的旗舰模型Gemini 3.1 Pro,而是性价比最高、面向海量智能体任务而设计的Gemini 3.1 Flash Lite。

更值得关注的是,这一次,国产大模型没有在性能上被甩开,MiniMax的MiniMax-M2.1月之暗面的Kimi-K2.5这两个霸占OpenClaw API调用量排行榜的国产模型位列第二、第三,与Google的差距尽在毫厘之间。

速度方面,MiniMax-M2.5更是直接登顶,阿里的Qwen3-Max-Thinking和智谱的GLM-5也冲进前十名,位列第六、第七。

在绝大部分用户最关心的成本方面,和我们此前预测的一样,国产AI模型在成本端相比国际顶级大模型具备明显优势。

可以看到,Gemini、GPT、Claude和Grok四家最新的旗舰模型都无缘前十,轻量级模型和旧版本模型虽然成本低廉,但成功率却没有保证,总成本未必占优。

另外,值得注意的是,不同模型之间的成本差异巨大,排名第十的Qwen3-Coder-Next的token成本已经超过排名第一的GPT-5-Nano的12倍,而这还只是最优情况下消耗的成本。

在实际应用中,用户最需要的是模型能“把活干好”,在这个基础之上开销当然越低越好。

若是把这张结合了任务成功率和成本的综合图划分为四个区域,左上角就代表“便宜且好用”,右上角则是“贵但是好用”。

到MiniMax、月之暗面和智谱的模型名称恰好都出现在左上角区域。

这也反映出技术层面上的现实:

Agent时代的到来,有效缩短了底层大模型之间的能力差距。

而国产大模型不仅有token成本上的优势,在智能体任务上的性能也已经达到国际顶尖水平。

03 免费陷阱:隐性成本与安全隐患

回到最近的产业动态,腾讯的这次公益活动可以说是把OpenClaw的使用门槛彻底抹除了。

即便无法线下参与,相比此前各大AI平台推出的“一键部署”功能,扫码登录+一次点击+复制粘贴的方式也已经没有什么技术难度。

深圳龙岗区甚至准备出台相关政策来扶持OpenClaw。

这一系列的重磅消息,属实有些让人不知所措,技术社区的人们甚至感觉有些荒唐。

在看完上面PinchBench的内容后,大家应该已经明白:

打着免费的旗号安装OpenClaw,实际上并不免费。

因为这背后隐藏着一个极其容易被忽视的技术细节:运行智能体和直接调用大语言模型,在资源消耗上完全是两个概念。

前面的文章中我们也说过,直接调用大语言模型这种一问一答的聊天,消耗相对可控。

但用Agent干活则完全不同,搜索网页、阅读报告、整理文件、分析总结,这些人类习以为常的工作,对AI来说就是成百上千次的API调用和token消耗。

更可怕的是,这种消耗是不透明的。越模糊的指令,意味着智能体需要进行工具调用、上下文回溯、错误重试的次数越多。

交互次数的线性增长,带来的是token消耗的指数级上升。

这种极其隐蔽的资源消耗逻辑,以及OpenClaw可能带来的安全风险,对于冲着“免费安装”去的普通用户来说是致命的。

这也解释了技术社区的态度为什么会与普通用户近期的态度截然相反。

腾讯这次公益活动的后续消息也能一定程度上反映这个问题:在为用户免费安装OpenClaw,还颁发“小龙虾出生证明”后,几个小时过去就已经有网友反馈账户被持续小额扣费,累计200元以上。

虽然腾讯马上回应称费用是历史行为产生,与OpenClaw部署无关,但这已经给用户们敲响了警钟:免费安装绝不等于免费使用。

而近期各大国产AI企业接连推出Coding Plan相关产品作为直接购买API的高性价比替代方案,本质上也是一种销售多余token和云服务器的方式。

04 理性回归:热潮退去后能留下什么?

对于这次“养虾”热潮,Linuxdo论坛上一位用户评论道:

言辞虽然有些偏激,但却一针见血。

“折腾”本身没有错,技术爱好者们探索新工具、尝试新方案,这就是推动技术进步的源动力。

但回到产品本身,OpenClaw仍然面临一个尴尬的局面:部署门槛几乎为零,但有效使用门槛依然很高。

或许,这个周末安装OpenClaw的大部分人,都享受到了部署成功那一瞬间的成就感,有了茶余饭后“我也在养虾”的谈资,却无法感受到工具本身能够带来的实际价值。

在技术社区中,我看到一个值得分享的观点:

使用OpenClaw的人应该具备以下三个条件:

①非常明确OpenClaw能做什么;

②非常明确OpenClaw如何实现价值;

③带着目的去使用并实现良好的效果;

但现实往往与之相反:很多人因为跟风或好奇而安装OpenClaw,结果发现天马行空的预期与实际的能力边界完全对不上,“一句话干完一天活”的幻想落空后又不清楚OpenClaw还能做什么,最后自然无法实现预期效果,要么放在那里再也不动,要么直接卸载删除。

这就是典型的“产品能力超前,用户需求滞后”。

现在的这波热潮,本质上只是新一轮的跟风。前有一键部署,后有免费安装,跟风“养虾”的人越来越多,鱼缸里的宠物也越来越多。

不可否认的是,在革命性的新产品诞生后,总会有人能将自己的创意发挥出远超token成本的价值。

但对于大部分普通用户来说,技术本身无罪,但传播过程中信息的过度简化和预期管理的缺失,以及“免费”二字带来的盲目热情,反而让探索者承担了不必要的试错成本。

热潮终会褪去,留下的才是真正解决问题的工具和使用者。

PinchBench这类基准测试的出现,意味着智能体已经从实验室的demo走向现实。

它不否认创新的热情,而是去建立一套可讨论、可比较、可迭代的评估方案。

对于开发者,它是优化模型和工具链的参照系;对于用户,它是理性选择技术方案的决策辅助。

PinchBench这次愿意把评分逻辑公开于众的尝试,至少让用户在选择前有了一份可验证的依据。

更重要的是,在这个智能体爆发的时代,保持清醒比跟上潮流更重要。