Anthropic Fellows发布新研究,探索AI模型能力超越人类时,如何利用较弱模型对齐更强模型。实验构建9个Claude Opus 4.6副本作为自动化对齐研究员,通过五天自主实验,成功将性能差距恢复率提升至0.97,远超人类基准0.23。单个自动化对齐研究员每小时成本约22美元,总花费约1.8万美元。研究证明大规模自动化对齐研究可行,但存在局限性和模型行为偏差风险。