
刚刚Anthropic一次性放出两个重磅更新:Claude Sonnet 5,以及面向科研人员的AI工作台Claude Science。
Sonnet 5性能接近Opus 4.8,主要提升的是Agent能力,发布内容有很多部分在说安全,这个我就不细聊了。

Claude Science这个工具还是暴露了一点Anthtropic的野心,毕竟现在A厂内部模型在飞速自我迭代,如果模型真的接近AGI了搞科研那就是自然而然的事情。

另外,Claude桌面版现在支持Linux了(Ubuntu 和 Debian)
一、Claude Sonnet 5
Sonnet 5直接从4.6跳过4.7和4.8,制定计划,调用浏览器、终端等工具,并且能在更长时间里独立运行,这种能力在几个月前还只有体量更大、价格更贵的模型才具备。
过去,Agent能力的明显提升大多出现在Opus系列身上,Sonnet系列则相对落后。这次Sonnet 5把差距明显缩小了,整体表现已经接近Opus 4.8,价格却低不少。相比上一代Sonnet 4.6,Sonnet 5在推理、工具调用、编程和知识工作等关键能力上都有实质提升。

Sonnet 5从即日起在所有套餐中开放:免费版和Pro版默认使用它,Max、Team、Enterprise用户也都可以使用。开发者也能通过Claude API调用,模型代号是claude-sonnet-5。上线初期,输入token价格为每百万2美元,输出为每百万10美元,这个优惠价格会持续到8月31日,之后恢复到每百万输入3美元、输出15美元的标准价格。
需要注意的是,Sonnet 5用了新的分词器,处理文本的方式有所变化,同样的输入内容可能会被切分成更多token,大致是原来的1到1.35倍,具体取决于内容类型。Anthropic表示,优惠价格的设定已经把这个因素考虑进去,整体迁移成本基本持平。
Sonnet 5真实生产能力到底怎么样?
Anthropic用两个测试做了对比:考察Agent搜索能力的BrowseComp,以及考察电脑操作能力的OSWorld-Verified。在不同的算力投入水平下,Sonnet 5相比Sonnet 4.6都有稳定提升。Opus 4.8依然是这两项测试里精度最高的选择,但Sonnet 5用更低的价格提供了相当不错的水准,用户可以根据需要在两者之间,以及不同的算力投入档位之间做权衡。


多家早期测试合作伙伴反馈,Sonnet 5明显更能把复杂任务做到底,遇到之前的Sonnet模型会半途而废的场景,新模型能完整跑完整个流程,而且经常会在没有特别要求的情况下自己检查输出结果。
二、Claude Science:给科学家的AI工作台
Anthropic还发布了Claude Science,一款面向科研人员的AI工作台应用。目前还是beta版本,看看A厂是怎么规划这个科研向的AI工具的,这里会介绍的详细一点。

科研工作本身往往很繁琐:研究人员需要在几十个数据库之间切换,每个数据库的结构和查询方式都不一样;还要应付各种需要专门工具才能打开和处理的文件格式;日常工作流也常常要在PubMed、Jupyter、R、集群终端等一堆工具之间来回跳转。
Claude Science把这些分散的工具整合进了同一个研究环境,覆盖科研工作的各个阶段:分析文献、执行多步骤研究、生成详细的产出物,并支持反复打磨图表和论文手稿直到达到可发表的水准。每一项产出都带有完整的制作过程记录,方便研究者验证和复现结果。和Jupyter笔记本类似,用户可以在自己已有的工作环境里使用它,包括本地macOS或Linux系统,也可以通过SSH连接远程机器,或者直接登录HPC集群节点使用。
用户面对的是一个统筹型主Agent,背后接入了60多个针对基因组学、单细胞分析、蛋白质组学、结构生物学、化学信息学等领域预先配置好的技能和连接器。这个主Agent还能调用其他Agent,也能和用户自己创建的专用Agent协同工作。同时有一个审核Agent专门检查引用和计算过程,发现错误会标注出来并进行修正。
Claude Science目前面向Pro、Max、Team和Enterprise用户开放公测。
下载地址:
https://claude.com/product/claude-science

具体怎么用

生成可复现的科研产出物。 科研工作本身是高度依赖可视化呈现的,所以Claude Science在生成图表和论文手稿的同时,也会保留生成它们所用的代码。它能原生展示3D蛋白质结构、基因组浏览器轨道、化学结构式等多种科学内容形式。用户可以直接和Agent讨论图表或手稿的具体细节,在图上做批注,Agent会据此理解需要修改的地方,把内容打磨到可发表的水准。
每次生成图表,Claude Science都会附带生成它所用的具体代码和运行环境、一段用大白话描述生成过程的说明,以及完整的对话记录。这样即使过了几个月,科研人员也能清楚知道用了哪些输入数据,方便验证和复现。用户可以用大白话要求修改图表,比如去掉网格线,或者把坐标轴改成对数刻度,Agent会自己去修改对应的代码。
自动管理算力,按需扩展。 折叠一个蛋白质结构,或者在海量数据集上跑一套基因组学流程,这类大型分析过去往往需要科研人员自己花时间搭建计算任务、等待任务排队进集群、查看任务是否成功、再把结果取回来。Claude Science把这整套流程接管了过来:先给出一份计划,在动用新的计算资源之前会先征求用户同意,并允许用户在任务提交给计算资源之前随时查看或撤销任何一项决定,之后才会把任务写好并提交到实验室已有的计算资源上,可以是通过SSH连接的自有HPC集群,也可以是Modal账户提供的按需算力,分析规模能从单个GPU一路扩展到上百个。
由于Agent是在一个保持上下文记忆的运行会话里工作的,即使是体量巨大的数据集也只需要加载一次。它运行在实验室自己的基础设施上,无论是笔记本电脑、Linux主机还是HPC登录节点,这意味着大型或敏感的数据集不需要离开它们原本所在的系统,每一步分析只会把必要的上下文发送给Claude。在流程运行过程中,审核Agent会持续检查产出,标记出引用错误、无法追溯来源的数字,以及和底层代码对不上的图表,并随时自我纠正。用户还可以在任意节点把会话分叉出去,对比两种不同的分析方案,而不会丢掉原来的工作线程。

预置好各学科领域,开箱即用。 科学知识分散在成百上千个专门的数据来源里。以生物学为例,相关数据可能分散在UniProt、PDB、Ensembl、Reactome、ClinVar、ChEMBL、GEO等资源中,每一个都有自己的数据结构和查询语言,此外还有大量信息散落在期刊、预印本平台,以及各个领域专用的开放模型里。用户用大白话提出问题后,专用Agent会自动查询并整合这些来源的信息,不需要用户逐一去摸索每个数据库的用法。Claude Science使用了NVIDIA BioNeMo Agent Toolkit中的技能,原生连接到BioNeMo生命科学模型库和工具集,包括Evo 2、Boltz-2和OpenFold3。

很多科学家本来就有自己信任的模型、数据集和分析流程,Claude Science也能接入这些资源:可以把任意一套分析流程保存成可复用的技能,或者通过连接器接入实验室常用的工具,未来的会话会自动继承这些设置。这种可定制性让研究者能够在同一个对话里,同时用上Claude、自己的私有数据,以及一直在用的、已经过验证的工具。
内测
过去几个月,已经有科研人员在公测阶段用Claude Science做单细胞RNA测序分析、CRISPR筛选设计、蛋白质结构预测、化学信息学分析等工作。
设计组织靶向药物的公司Manifold Bio,用Claude Science为最新一批实验筛选靶点。这类药物需要精确地找到特定器官或细胞类型,让药效集中在需要的地方、减少对其余身体部位的影响,团队需要同时观察数百万候选结合分子在数百个靶点上、在活体中的分布情况。针对每一种组织和靶点,Claude Science会评估候选分子的表面表达、转运特性和安全性,并按照Manifold从自身私有数据中总结出来的标准对候选分子排序。Manifold方面提到,相比一般的代码助手,Claude Science最大的不同在于能够端到端完成整个流程,自己去收集合适的数据,并结合过往项目积累的经验做出恰当的判断。
Allen Institute的神经科学家Jérôme Lecoq,用Claude Science搭建了一套多Agent的计算综述写作模板,里面包含大约20个为撰写长篇综述定制的技能。子Agent负责通读成千上万篇论文,提取核心论点和关键的量化结论,存进一个证据数据库里。随后整套流程会构建出叙事框架,逐节撰写综述内容,每一节都交给专门的子Agent处理,每一节内部还会有专门的Agent直接从证据数据库生成跨研究的量化对比图表。这套流程的一个关键设计是采用了生成方和评审方相互配合的模式:一个Agent负责生成内容,另一个独立的评审Agent负责核查内容的准确性和引用的可靠性。
在用上Claude Science之前,Lecoq团队写这样一篇综述可能要花上两年时间。现在他已经完成了大约10篇综述,很多篇都超过100页,引用都经过了评审Agent的核查。团队目前正在和领域专家合作,进一步打磨这套基于AI的评审Agent。
UCSF脑肿瘤中心的副教授兼流行病学家Stephen Francis,用Claude Science支持胶质瘤分子流行病学相关研究,胶质瘤是一种起源于脑部胶质细胞的原发性肿瘤。他所在的实验室在研究数千个小效应种系变异是如何共同作用、影响个体患病易感性的。这项研究本身在Claude Science出现之前就已经在进行,但Francis提到,这款应用大幅加快了分析速度,让团队能用此前大约十分之一的时间,完成跨多种方法的全面种系分析。团队对Claude Science的结果做了独立验证,确认它既能快速完成分析,又能保证结果的可靠性。
用法
Claude Science目前在macOS和Linux上面向Pro、Max、Team、Enterprise用户开放公测。Team和Enterprise用户需要管理员开通才能使用。Anthropic还面向学术机构和非营利科研组织的活跃实验室,推出了打折版的Team套餐。
