三轮训练打造聊天机器人

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial2周前2分钟阅读

三轮训练打造聊天机器人

仅仅构建一个 Transformer 是不够的。你可以将整个互联网的数据灌输进去，并花费数百万美元进行计算。但最终你得到的仍可能是一个无法回答简单问题的机器。

原始模型只是一个文本模仿者。它根据模式预测下一个词。如果你问它“如何重置我的路由器？”，它可能会用更多问题来回答，比如“如何更改我的密码？”。它并不知道你需要帮助，它只知道互联网是如何延续一个句子的。

要将这个预测器转变为聊天机器人，你需要进行三轮训练。

预训练（引擎）你向模型展示数万亿个词。你隐藏最后一个词并让它进行猜测。这构建了知识。它学习事实、语法和逻辑。这之所以可行，是因为数据是自我标注的。规模化使得这一过程变得可预测。更多的数据和更多的算力会带来更好的结果。
指令微调（剧本）基础模型无所不知，但没有目标。在这一轮中，你向它展示几千个“提示词（prompt）+人类优质回答”的示例。这并不会增加新知识，而是教会模型一种新的行为。你就像是在给演员递剧本。它学会了像一个得力的助手一样行动，而不仅仅是一个文本补全器。
偏好微调（礼仪）剧本是有限的。你无法为每种情况都编写规则。在这一轮中，你向模型展示两个不同的答案，并让一个人从中选出更好的一个。模型学会了根据人类的口味去追求高分。这赋予了模型语气、礼貌以及安全边界。

总结很简单：

你在聊天窗口中看到的个性，仅仅是在原始词预测器之上覆盖的一层薄薄的外壳。我们并不需要智能理论来构建这一切。我们只需要一个简单的目标、规模以及两轮辅导。

继续阅读