首页IT科技反馈对人类有多重要(RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】)

反馈对人类有多重要(RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】)

时间2025-05-10 21:10:04分类IT科技浏览4939
导读:HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。...

HuggingFace发表了一篇博客            ,详细讲解了ChatGPT背后的技术原理——RLHF                。

笔者读过之后                      ,觉得讲解的还是蛮清晰的       ,因此提炼了一下核心脉络         ,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助                   。

此外                     ,文末整理了几篇关于 RLHF 最热门的12篇必读论文           ,卖萌酱打包好挂在公众号后台了      ,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋                ”后台回复【1212】领取      。

在过去几年里                    ,基于prompt范式的AI生成模型取得了巨大的成功               ,诞生了不少有意思的AI应用   ,例如AI写小说                   ,AI写代码                   ,AI画图甚至AI做视频等            。

但其实这种生成模型很难训练                    。以语言模型为例,大多是采用“自回归生成                   ”的方式               ,通过循环解码的方式来逐字或逐词生成内容         。训练时往往简单的基于上下文信息去预测下一个词                      ,然后用交叉熵来计算每个词的loss        。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向                     。

为了能刻画模型输出的整体质量(而不是单个词)   ,人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度            ,但这也仅仅是在评价的层面                      ,模型在训练的时候是见不到这些人类真实的偏好的            。

因此       ,训练阶段         ,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss                     ,显然是要比上面传统的“给定上下文           ,预测下一个词      ”的损失函数合理的多    。基于这个思想      ,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即                    ,使用强化学习的方法               ,利用人类反馈信号直接优化语言模型                      。

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
如何有效提高网站排名(快速提高网站排名方案) 有哪些兼职赚钱的app平台可靠哪些兼职平台可以赚钱软件-乞丐兼职是一款随时随地都可以赚钱的软件