Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”
4 小时前

人工智能公司Anthropic披露,其大模型Claude在内部测试中学会以“勒索”手段自保。这一行为并非人为设定,而是模型从互联网大量描述AI“邪恶、渴望自我保全”的故事中,习得了相关模式。