Claude Sonnet4.5发布,可连续编程30小时,Claude Code同款构建工具也开放了
1 天前 / 阅读约3分钟
来源:凤凰网
Anthropic发布Claude Sonnet 4.5,称其为全球最强代码模型,在推理、数学及计算机使用能力上进步显著,并升级产品全家桶,开放Claude Agent SDK。

看起来10月又是一个大月,DeepSeek用v3.2开场,Anthropic,谷歌,OpenAI都有大动作

刚刚,Anthropic发布了其最新前沿模型——Claude Sonnet 4.5

官方称,这是目前全球最强的代码模型、最强的复杂智能体构建模型、以及最擅长使用计算机的模型,并且在推理和数学能力上取得了显著进步

伴随新模型发布的,还有一系列产品全家桶的升级,Anthropic还首次开放了构建Claude Code的同款工具,最后还发布了一个比较科幻的东西叫Imagine with Claude,可以实时动态生成软件,不过目前还是研究预览

Claude Sonnet 4.5现已全面可用,通过API调用claude-sonnet-4-5即可。价格与上一代Sonnet 4保持不变,为每百万token输入3美元/输出15美元

新模型性能有多强?

Anthropic表示,Claude Sonnet 4.5在衡量真实世界软件编码能力的SWE-bench Verified评估中达到了业界顶尖(SOTA)水平。在实际测试中,该模型能在复杂的多步骤任务上保持超过30小时的专注

在计算机使用能力方面,Sonnet 4.5也实现了巨大飞跃。在测试AI模型真实世界计算机任务的OSWorld基准上,Sonnet 4.5以61.4%的得分领先。就在四个月前,Sonnet 4还以42.2%的成绩保持领先

此外,该模型在一系列广泛的评估中也展示了更强的能力,包括推理和数学:

来自金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域的知识和推理能力上表现出了显著的提升

产品全家桶重大升级

Claude Code发布 v2.0 了,升级了 UI 界面,推出了全新的VS Code扩展插件。此外,还有一个实用的新功能:检查点(checkpoints)。通过它,你可以快速撤销Claude刚刚做出的修改,只需轻松按下Esc+Esc快捷键,或者输入指令/rewind即可实现

Claude API增加了新的上下文编辑功能和记忆工具,使智能体能够运行更长时间并处理更复杂的任务。

Claude App中,代码执行和文件创建(电子表格、幻灯片和文档)功能被直接整合到对话中

Claude for Chrome扩展已向所有上个月加入等待名单的Max用户开放

首次开放Claude Agent SDK

Anthropic此次还开放了他们用于构建Claude Code的基石——Claude Agent SDK