反馈对人类有多重要(RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】)
HuggingFace发表了一篇博客 ,详细讲解了ChatGPT背后的技术原理——RLHF 。
笔者读过之后 ,觉得讲解的还是蛮清晰的 ,因此提炼了一下核心脉络 ,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助 。
此外 ,文末整理了几篇关于 RLHF 最热门的12篇必读论文 ,卖萌酱打包好挂在公众号后台了 ,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋 ”后台回复【1212】领取 。
在过去几年里 ,基于prompt范式的AI生成模型取得了巨大的成功 ,诞生了不少有意思的AI应用 ,例如AI写小说 ,AI写代码 ,AI画图甚至AI做视频等 。
但其实这种生成模型很难训练 。以语言模型为例,大多是采用“自回归生成 ”的方式 ,通过循环解码的方式来逐字或逐词生成内容 。训练时往往简单的基于上下文信息去预测下一个词 ,然后用交叉熵来计算每个词的loss 。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向 。
为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度 ,但这也仅仅是在评价的层面 ,模型在训练的时候是见不到这些人类真实的偏好的 。
因此 ,训练阶段 ,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss ,显然是要比上面传统的“给定上下文 ,预测下一个词 ”的损失函数合理的多 。基于这个思想 ,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即 ,使用强化学习的方法 ,利用人类反馈信号直接优化语言模型 。
抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客
从零实现ChatGPT——RLHF技术笔记 - 知乎
Illustrating Reinforcement Learning from Human Feedback (RLHF)
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!