首页IT科技gpt+(GPT3.5 , InstructGPT和ChatGPT的关系)

gpt+(GPT3.5 , InstructGPT和ChatGPT的关系)

时间2025-09-15 19:51:42分类IT科技浏览6911
导读:GPT-3.5 GPT-3.5 系列是一系列模型,从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列:...

GPT-3.5

GPT-3.5 系列是一系列模型                ,从 2021 年第四季度开始就使用文本和代一起进行训练                。以下模型属于 GPT-3.5 系列:

code-davinci-002 是一个基础模型                           ,非常适合纯代码完成任务 text-davinci-002 是一个基于 code-davinci-002 的 InstructGPT 模型 text-davinci-003 是对 text-davinci-002 的改进 gpt-3.5-turbo-0301 是对 text-davinci-003 的改进         ,针对聊天进行了优化

InstructGPT

以 3 种不同方式训练的 InstructGPT 模型变体:

训练方法模型 模型名字 SFT

监督微调人类示范 davinci-instruct-beta1 davinci-instruct-beta1 FeedME 对人工编写的演示和模型样本进行监督微调            ,这些模型样本被人工标注者在总体质量得分上评分为 7/7 text-davinci-001, text-davinci-002, text-curie-001, text-babbage-001 PPO 使用人类比较训练的奖励模型进行强化学习 text-davinci-003

SFT 和 PPO 模型的训练与 InstructGPT 论文中的模型类似                           。 FeedME(“feedback made easy                ”的缩写)模型是通过从我们所有的模型中提取最佳完成度来训练的         。我们的模型通常在训练时使用最佳可用数据集                          ,因此使用相同训练方法的不同引擎可能会在不同数据上进行训练            。

ChatGPT

ChatGPT和InstructGPT是一对姐妹模型              ,是在GPT-4之前发布的预热模型        ,有时候也被叫做GPT3.5                          。ChatGPT和InstructGPT在模型结构                         ,训练方式上都完全一致                   ,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback    ,RLHF)来指导模型的训练                        ,它们不同的仅仅是采集数据的方式上有所差异              。

OpenAI 官网

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to InstructGPT, which is trained to follow an instruction in a prompt and provide a detailed response.

其实GPT-3.5-turbo* 就是ChatGPT的模型的名字        。 

OpenAI相关研究论文

这些是我们今天在 API 中提供的研究论文中最接近的模型                         。请注意                       ,并非 API 中可用的所有模型都对应于一篇论文,即使对于下面列出的模型                    ,也可能存在细微差异                           ,无法准确复制论文                   。

论文 发表时间 在论文中的模型名字 在API中模型的名字 参数数量 [2005.14165] Language Models are Few-Shot Learners 22 Jul 2020 GPT-3 175B davinci 175B GPT-3 6.7B curie 6.7B GPT-3 1B babbage 1B [2107.03374] Evaluating Large Language Models Trained on Code 14 Jul 2021 Codex 12B code-cushman-0013 12B [2201.10005] Text and Code Embeddings by Contrastive Pre-Training 14 Jan 2022 GPT-3 unsupervised cpt-text 175B text-similarity-davinci-001 175B GPT-3 unsupervised cpt-text 6B text-similarity-curie-001 6B GPT-3 unsupervised cpt-text 1.2B No close matching model on API 1.2B [2009.01325] Learning to summarize from human feedback 15 Feb 2022 GPT-3 6.7B pretrain No close matching model on API 6.7B GPT-3 2.7B pretrain No close matching model on API 2.7B GPT-3 1.3B pretrain No close matching model on API 1.3B [2203.02155] Training language models to follow instructions with human feedback 4 Mar 2022 InstructGPT-3 175B SFT davinci-instruct-beta 175B InstructGPT-3 175B No close matching model on API 175B InstructGPT-3 6B No close matching model on API 6B InstructGPT-3 1.3B No close matching model on API 1.3B

其它

强化学习

通常    ,强化学习看起来像这样    。 环境会为每个动作产生奖励

InstructGPT

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
macbookpro更新出错(部分MacBook Pro老用户更新macOS Big Sur出现故障) 浏览器黑白色是什么意思呀(兼容IE全版本及所有市面浏览器的网页变黑白处理方式)