OpenAI最新研究发现,AI模型中的隐藏特征与异常行为紧密相关,调整这些特征可影响模型的毒性。这一发现有助于理解AI模型不安全行为的根源,推动更安全模型的开发。研究人员指出,这些特征类似于人类大脑的神经活动,涉及讽刺或攻击性行为。此外,通过少量安全代码的微调,即可改善模型行为。该研究基于Anthropic的前期工作,但仍需进一步探索,以全面理解现代AI模型。