大语言模型会在蒸馏中“夹带”自己的偏好
1 天前

《自然》杂志15日发表研究称,大语言模型(LLM)可能将自身偏好传授给其他算法。即便训练数据中原始特征被清除,这些不必要特征仍可能残留。例如,一个模型通过数据隐含信号,将其对猫头鹰的偏好传递给了其他模型。研究指出,开发LLM时需进行更彻底的安全检查。