为什么结构化反馈在 AI 训练中至关重要

Translated for your language. 阅读原文.

AI-assisted draft.

前天2分钟阅读

为什么结构化反馈在 AI 训练中至关重要

研究人员正在逐渐摒弃用于 AI 训练的简单评分，转而使用更丰富的信号。

一篇题为《Rethinking Reward Supervision》的新论文展示了这种转变的重要性。大多数训练方法将数据压缩成一个单一的数字。单一的评分只能告诉你答案的好坏，却无法告诉你原因。

当前的方法存在局限性：

有监督蒸馏（Supervised distillation）依赖于思维链（chain-of-thought）示例。这些示例成本高昂且往往并不完美。如果模型模仿了错误的解释，它就会学到错误的东西。
强化学习（Reinforcement learning）使用奖励。奖励仅提供一个单一的数字，这使得信用分配（credit assignment）变得困难。模型知道结果，但不知道具体是哪一步出了问题。

评分标准（Rubrics）解决了这个问题。它们介于简单评分和完整解释之间。

该过程分为两个阶段：

这种方法具有三个优势：

论文表明，在科学推理任务中，这种方法优于 GRPO 和 OPSD 等现有模型。

教训很明确：如果任务具有结构性，请在训练循环中保留这种结构。不要过早地将数据扁平化为一个单一的数字。

无论你使用的是评分标准、基于不确定性的规划，还是程序化解释，目标都是一致的：将隐藏的行为转化为显式信号。

如果你正在构建推理系统，请直接对评分标准进行编码。不要仅仅依赖最终评分。

Optional learning community: https://t.me/GyaanSetuAi

继续阅读