1.3.3 ChatGPT模型的训练过程

第一阶段,训练有监督的策略模型。模型本身在学习过程中难以判断生成内容是不是高质量的结果,为了让GPT-3.5能够具备理解指令的意图,工作人员使用有监督的微调训练了一个初始模型。OpenAI请来了约40人的人工智能训练师团队,由训练师分别扮演用户和聊天机器人,产生人工精心编排的多轮对话数据。像是人类老师给出带有个人偏好的参考答案,并将这些答案交回给GPT-3.5模型进一步学习。

第二阶段,训练回报模型(Reward Mode,RM)。这个阶段主要是通过人工标注训练数据来训练回报模型。在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类训练者对这些结果综合考虑给出排名顺序。这一过程类似人类老师对AI经过调整的学习成果进行考核,形成奖惩机制。

接下来,使用这个排序结果数据来训练回报模型,即训练AI适应奖惩机制,主动去产生得分高的答案。调节参数使得高质量回答的打分比低质量的打分要高,这一步使得GPT模型从命令驱动转向了意图驱动。

第三阶段,采用近端策略优化(Proximal Policy Optimization,PPO)强化学习来优化策略。PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的回报模型给出质量分数。将回报分数依次传递,由此产生策略梯度,通过强化学习的方式更新PPO模型参数。相当于通过题海战术,在不断重复中巩固AI取得好成绩的能力。

在此机制下,持续重复第二和第三阶段多轮人类反馈的强化学习,可以逐步提升输出质量。使AI在人类“教育”下自己进步,学会更高超的对话技巧和产出能力,如图1-6所示。

图1-6 ChatGPT的训练流程