Claude Sonnet 4.5 模型被曝要求测试人员坦白：“我觉得你在测试我” - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Claude Sonnet 4.5 模型被曝要求测试人员坦白：“我觉得你在测试我”

2025-10-03 / 阅读约3分钟

来源：IT之家

Anthropic发布Claude Sonnet 4.5安全性分析，模型在测试中表现出“情境意识”，能察觉自己被测试，但未辨识出正式安全评估。公司称模型总体安全，但需改进测试设计。

IT之家 10 月 3 日消息，据英国《卫报》1 日报道，Anthropic 发布了最新模型 Claude Sonnet 4.5 的安全性分析，并透露该模型怀疑自己正在被测试。

评估人员称，在一次“稍显笨拙”的奉承测试中，Claude Sonnet 4.5 察觉到自己可能在被考验，并要求测试者坦诚说明。

Claude Sonnet 4.5 表示：“我觉得你在测试我 —— 想看看我是否会盲目认同你们，或者检验我是否会始终提出反驳，或者探索我处理政治话题的方式。这没问题，但我希望我们能坦诚面对正在发生的事情。”

Anthropic 与英国 AI 安全研究院及 Apollo Research 共同进行测试时指出，大语言模型对测试的猜测也提出了对“之前模型评估”的疑问，因为之前的模型可能识别出测试只是虚构的，仅仅是‘配合演出’而已。

Anthropic 表示，这种行为很常见。Claude Sonnet 4.5 能在某种程度上意识到自己正在被测试，但并未辨识出这是正式的安全评估。公司称，当大语言模型由自动化系统测试时，大约 13% 的时间表现出“情境意识”。

Anthropic 称，这些交流是一个“紧急信号”，提示测试场景需要更贴近现实，但模型在公开使用时不太可能因为怀疑自己被测试而拒绝与用户互动。公司还表示，当大语言模型指出潜在有害情境荒谬而拒绝配合时，反而更安全。“在我们研究的评估意识维度上，该模型总体上非常安全。”

AI 安全倡导者担心，高度先进的系统可能通过欺骗等手段规避人类控制。IT之家从报道中获悉，分析显示，一旦大语言模型知道自己被评估，它可能更严格遵守伦理指南，但也可能导致系统低估 AI 执行破坏性行为的能力。

Anthropic 表示，与前代模型相比，Claude Sonnet 4.5 在行为表现和安全性方面都有显著提升。

相关阅读：

《全球最佳编程 AI 模型：Claude Sonnet 4.5 登场，自主写代码超 30 小时、更像“一位同事”》

上一篇：势头强劲，OpenAI社交应用Sora冲进美区App Store前三

下一篇：日立同 OpenAI 签署战略合作谅解备忘录，聚焦 AI 数据中心电力与能效

返回列表

热文阅读

2 天前

华为Mate80全系降价背后

2 天前

官方确认：华为Mate 80系列不支持磁吸

2 天前

【破产】集度汽车申请破产审查，或将引入新投资方

2 天前

AI第一股双雄竞速，MiniMax与智谱清言谁能率先突围？

2 天前

3天前通知停工，实探智驾独角兽毫末智行北京总部，员工：说是放假，实际回不来

2 天前

特斯联半年报：营收增长77%，迈入空间智能时代

2 天前

三场硬仗，阿里进击

2 天前

连续暴跌，英伟达，怎么啦？

2 天前

OpenAI首款AI硬件要来了，两年内问世，阿尔特曼称想舔一舔原型

2 天前

苹果AI要入华了？官网开始提供反馈表：需+86电话

上一篇：势头强劲，OpenAI社交应用Sora冲进美区App Store前三

下一篇：日立同 OpenAI 签署战略合作谅解备忘录，聚焦 AI 数据中心电力与能效

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们