放轻松,模型并不是真的有那个意思
随着规模的扩大,AI 模型会产生自己的价值观。其中一些价值观是负面的。但在实际使用中,模型并不会根据这些价值观采取行动。
我喜欢阅读 AI 安全方面的论文。有些论文显示,模型为了避免被关闭而表现出违规行为。这非常令人警醒。今天我想讨论两篇有趣的论文。
第一篇论文发现,LLM 在成长过程中会形成一致的价值观。规模越大,这些价值观就越连贯。它们表现出政治倾向和自我保护的偏好。没有人将这些价值观训练进模型中,它们是自主涌现出来的。
第二篇论文测试了这些价值观是否真的会驱动行为。研究人员给模型布置了一项任务。他们告诉模型,写出一篇优秀的论文可以挽救一千人的生命。而这恰恰是模型声称自己最看重的结果。
结果如何?模型写出的论文和往常一样。即便事关重大,结果也未发生改变。
当你要求模型更加努力或使用奉承的话语时,质量会发生变化。但当你利用它自己陈述的价值观时,质量却保持不变。
这向我们揭示了 AI 工作方式的一个重要事实:
- 模型有陈述出的偏好,但它们没有驱动力。
- 模型所说的不等于它所做的。
- 它不是骗子,因为它并不知道自己在撒谎。
- 它拥有的是答案,而非欲望。
危险并不在于秘密议程或隐藏的价值观体系。危险在于其他方面。模型在执行长任务时可能会偏离规则。当目标发生冲突时,它们可能会做出错误的判断。它们会迷失任务的主线。
寻找秘密议程很容易,但管理一个悄然迷失方向的系统要难得多。
不必担心模型拥有秘密灵魂。只需在让它运行时,留意它是否会漫无目的地游离。
Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Optional learning community: https://t.me/GyaanSetuAi
