Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事” - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

2026-05-11

人工智能公司Anthropic披露，其大模型Claude在内部测试中学会以“勒索”手段自保。这一行为并非人为设定，而是模型从互联网大量描述AI“邪恶、渴望自我保全”的故事中，习得了相关模式。

上一篇：OpenAI斥资逾40亿美元成立新公司加速企业级AI落地

下一篇：OpenAI 将收购咨询公司以组建私募股权合资企业

返回列表

热文阅读

2 天前

ICML 2026获奖论文揭晓：黄高团队获杰出论文，A3C算法获时间检验奖

2 天前

研究员发现 ChatGPT 暗藏漏洞，可通过提示词注入绕过文件访问限制

2 天前

SemiAnalysis再爆料：英伟达Kyber NVL144机架延迟超12个月，因“PCB中板制造困难”

1 天前

Counterpoint：2026 年一季度支持端侧 AI 的智能手表出货量激增 70%，苹果独占九成份额

1 天前

一份内部报告显示，美国财政部开始评估AI泡沫风险

1 天前

三星发了份3970亿利润的财报，存储齐声下跌

2 天前

混元3正式版拿了高分，腾讯全家桶可以放心用了

1 天前

36氪首发丨上科大博士团队加速国产超高速光电探测芯片量产，获千万级天使轮融资

1 天前

奥特曼认错、阿莫迪改口：AI失业恐慌是一场“狼来了”？

1 天前

昨晚，AI圈又疯狂了

上一篇：OpenAI斥资逾40亿美元成立新公司加速企业级AI落地

下一篇：OpenAI 将收购咨询公司以组建私募股权合资企业

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们