三轮训练打造聊天机器人
仅仅构建一个 Transformer 是不够的。你可以将整个互联网的数据灌输进去,并花费数百万美元进行计算。但最终你得到的仍可能是一个无法回答简单问题的机器。
原始模型只是一个文本模仿者。它根据模式预测下一个词。如果你问它“如何重置我的路由器?”,它可能会用更多问题来回答,比如“如何更改我的密码?”。它并不知道你需要帮助,它只知道互联网是如何延续一个句子的。
要将这个预测器转变为聊天机器人,你需要进行三轮训练。
预训练(引擎) 你向模型展示数万亿个词。你隐藏最后一个词并让它进行猜测。这构建了知识。它学习事实、语法和逻辑。这之所以可行,是因为数据是自我标注的。规模化使得这一过程变得可预测。更多的数据和更多的算力会带来更好的结果。
指令微调(剧本) 基础模型无所不知,但没有目标。在这一轮中,你向它展示几千个“提示词(prompt)+人类优质回答”的示例。这并不会增加新知识,而是教会模型一种新的行为。你就像是在给演员递剧本。它学会了像一个得力的助手一样行动,而不仅仅是一个文本补全器。
偏好微调(礼仪) 剧本是有限的。你无法为每种情况都编写规则。在这一轮中,你向模型展示两个不同的答案,并让一个人从中选出更好的一个。模型学会了根据人类的口味去追求高分。这赋予了模型语气、礼貌以及安全边界。
总结很简单:
- 预训练构建知识。
- 指令微调从人群中选出助手。
- 偏好微调增加判断力和礼仪。
你在聊天窗口中看到的个性,仅仅是在原始词预测器之上覆盖的一层薄薄的外壳。我们并不需要智能理论来构建这一切。我们只需要一个简单的目标、规模以及两轮辅导。
可选学习社区:https://t.me/GyaanSetuAi
