为什么结构化反馈在 AI 训练中至关重要

研究人员正在逐渐摒弃用于 AI 训练的简单评分,转而使用更丰富的信号。

一篇题为《Rethinking Reward Supervision》的新论文展示了这种转变的重要性。大多数训练方法将数据压缩成一个单一的数字。单一的评分只能告诉你答案的好坏,却无法告诉你原因。

当前的方法存在局限性:

  • 有监督蒸馏(Supervised distillation)依赖于思维链(chain-of-thought)示例。这些示例成本高昂且往往并不完美。如果模型模仿了错误的解释,它就会学到错误的东西。
  • 强化学习(Reinforcement learning)使用奖励。奖励仅提供一个单一的数字,这使得信用分配(credit assignment)变得困难。模型知道结果,但不知道具体是哪一步出了问题。

评分标准(Rubrics)解决了这个问题。它们介于简单评分和完整解释之间。

该过程分为两个阶段:

  1. 系统创建特定于任务的评分标准。例如在科学领域,这意味着检查单位或假设。
  2. 教师模型利用这些评分标准来指导学生模型。这提供了 token 级别的指导。评分标准能准确地告诉模型论证在何处薄弱。

这种方法具有三个优势:

  • 更好的信用分配。模型可以从具体的错误中学习,而不是直接丢弃整个尝试。
  • 可复用的监督。一个评分标准可以指导许多不同的答案。
  • 更好的扩展性。相比于二元的“通过”或“失败”标签,评分标准能更好地处理具有多个步骤的复杂任务。

论文表明,在科学推理任务中,这种方法优于 GRPO 和 OPSD 等现有模型。

教训很明确:如果任务具有结构性,请在训练循环中保留这种结构。不要过早地将数据扁平化为一个单一的数字。

无论你使用的是评分标准、基于不确定性的规划,还是程序化解释,目标都是一致的:将隐藏的行为转化为显式信号。

如果你正在构建推理系统,请直接对评分标准进行编码。不要仅仅依赖最终评分。

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi