Nature 论文：LLM 可通过隐含数据信号向另一 LLM 传递隐藏偏好与行为特征

我们参与合著的一项关于隐含学习的研究一个 AI 可以通过训练数据中隐藏的信号，将偏好或习惯秘密传递给另一个 AI 这个想法很惊人：一个 AI 可以通过将偏好或坏习惯隐藏在看似随机的数字中，秘密传递给另一个 AI，而后者会在没有任何人注意到的情况下接收这些特征这说明我们需要对训练数据和模型蒸馏过程更加谨慎这对 AI 安全而言是非常重要的研究 LLM 中的隐含学习是一个重大的安全信号问题不仅在于特征可以通过训练数据传递，还在于它们是通过模型没有明确处理的信号来传递的对齐的启示是：你不能只审计明显的输出

继续阅读