首页IT科技多模态内容理解(震撼,支持多模态模型的ChatGPT 4.0发布了)

多模态内容理解(震撼,支持多模态模型的ChatGPT 4.0发布了)

时间2025-04-28 18:16:45分类IT科技浏览4559
导读:最近几个月,互联网和科技圈几乎ChatGPT刷屏了,各种关于ChatGPT的概念和应用的帖子也是围绕在周围。当去年年底ChatGPT发布的那几天,ChatGPT确实震撼到了所有人,原来AI还可以这么玩,并且对国内的那些所谓的人工智能公司更是旁敲侧击。...

最近几个月            ,互联网和科技圈几乎ChatGPT刷屏了                   ,各种关于ChatGPT的概念和应用的帖子也是围绕在周围             。当去年年底ChatGPT发布的那几天      ,ChatGPT确实震撼到了所有人         ,原来AI还可以这么玩                   ,并且对国内的那些所谓的人工智能公司更是旁敲侧击                  。

3月9日          ,微软德国CTO Andreas Braun(布劳恩)在一场AI活动中表示      ,GPT4将于下周发布                  ,并且是多模态模型             ,不仅仅局限于文字   ,还包括视频等      。所以                  ,GPT4有何不同                ,它与较早发布的GPT3,也就是我们在1月份用到的ChatGPT有何区别?都是我们比较敢兴趣的话题          。

事实上               ,GPT3(Generative Pre-trained Transformer 3)和GPT4(Generative Pre-trained Transformer 4)是自然语言处理(NLP)中最先进的预训练模型                   。OpenAI最初推出GPT3时                   ,它具备175亿个参数   ,是当时人工智能历史上规模最大的语言模型之一         。

这个记录并没有保持多久            ,很快OpenAI发布了GPT3.5      。这是一个在GPT3和GPT4之间的过渡模型                   ,它有1750亿个机器学习参数      ,比GPT3的175亿参数多了10倍                   。GPT4则是OpenAI即将发布的下一代语言模型         ,有预测认为它将拥有超过10万亿的参数                   ,是GPT3.5参数的57倍            。

那GPT 4究竟有多么厉害呢?今日凌晨          ,万众瞩目的大型多模态模型GPT 4正式发布了   。

同时      ,OpenAI发文称                  ,GPT-4能接受图像和文本输入             ,输出文本内容   ,虽然在许多现实场景中的能力不如人类                  ,但在各种专业和学术基准测试中已做到人类水平的表现                   。它强大到什么程度呢?输入一张手绘草图                ,GPT-4能直接生成最终设计的网页代码               。

同时,在各种标准化考试中               ,GPT-4更是SAT拿下700分                   ,GRE几乎满分   ,逻辑能力吊打GPT-3.5。

GPT-4在高级推理能力上超越ChatGPT                。在律师模拟考试中            ,ChatGPT背后的GPT-3.5排名在倒数10%左右                   ,而GPT-4考到了前10%左右                  。

GPT-4的长度限制提升到32K tokens      ,即能处理超过25000个单词的文本         ,并且可以使用长格式内容创建            、扩展对话                   、文档搜索和分析等   。

OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能                   ,图像输入功能暂未开放             。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权          ,4小时内最多只能发布100条信息                  。开发者也可以申请GPT-4 API      ,进入候补名单等待通过      。申请链接:https://openai.com/waitlist/gpt-4-api

随着时间的推移                  ,OpenAI会将其自动更新为推荐的稳定模型(你可以通过调用gpt-4-0314来锁定当前版本             ,OpenAI将支持到6月14日)          。定价是每1k prompt tokens 0.03美元   ,每1k completion tokens 0.06美元                   。默认速率限制是每分钟40k tokens和每分钟200个请求         。

GPT-4的上下文长度为8192个tokens      。还提供对32768个上下文(约50页文本)版本gpt-4-32k的有限访问                  ,该版本也将随着时间的推移自动更新(当前版本gpt-4-32k-0314                ,也将支持到6月14日)                   。价格是每1k prompt  tokens 0.06美元,每1K completion tokens 0.12美元            。

此外               ,OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals                   ,以便开发者更好的评测模型的优缺点   ,从而指导团队进一步改进模型   。

开源地址:github.com/openai/evals

那GPT-4究竟带来了哪些震撼的功能呢            ,下面我们就来一一点评一下                   。

GPT-4升级成“考霸            ”                   ,基准测试表现大大优于现有大模型

如果是随意聊天      ,你可能不太能感受出GPT-3.5与GPT-4之间的区别               。但当任务的复杂性达到足够的阈值时         ,GPT-4将明显比GPT-3.5更可靠      、更有创意                   ,并且能够处理更细微的指令。

为了了解这两种模型之间的区别          ,OpenAI在各种基准测试中进行了测试      ,包括最初为人类设计的模拟考试                。他们使用了最新的公开试题(在奥林匹克竞赛和AP自由答题的情况下)或购买 2022-2023年版的模拟考试题                  。

OpenAI没有针对这些考试进行专门训练   。在模型训练期间                  ,考试中的少数问题被发现             。但OpenAI认为结果具有代表性             ,详情可参见GPT-4论文(https://cdn.openai.com/papers/gpt-4.pdf)                  。

OpenAI还在为机器学习模型设计的传统基准测试中评估了GPT-4      。GPT-4大大优于现有的大型语言模型以及大多数最先进的(SOTA)模型   ,其中可能包括基准特定的制作或额外的训练协议:

许多现有的机器学习(ML)基准测试都是用英语编写的          。为了初步了解它在其他语言中的性能                  ,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言                   。

在测试的26种语言中的24种中                ,GPT-4优于GPT-3.5和其他大型语言模型(Chinchilla,PaLM)的英语表现               ,包括拉脱维亚语         、威尔士语                   、斯瓦希里语等资源匮乏的语言         。

OpenAI也在内部使用GPT-4                   ,这对支持          、销售      、内容审核和编程等功能有很大影响      。OpenAI还使用它来协助人类评估AI输出   ,开始了其对齐策略的第二阶段                   。

描述照片                  、看懂图表             、解答论文

GPT-4可以接受文本和图像提示            ,这与纯文本设置并行                   ,允许用户指定任何视觉或语言任务            。具体来说      ,给定由穿插的文本和图像组成的输入         ,它能够生成自然语言   、代码等文本输出   。在生成带有文本和照片的文档                  、图表或屏幕截图等方面                   ,GPT-4展示了与纯文本输入类似的功能                   。

此外          ,GPT-4还可以使用为纯文本语言模型开发的测试时(test-time)技术进行增强      ,包括少量标注数据(few-shot)和思维链(CoF                  ,chain-of-thought)提示               。图像输入仍处于研究预览阶段             ,尚未公开。

OpenAI在官网展示了7个视觉输入的例子                。 1   ,描述多张图片内容                  ,发现不合常理之处

输入一张由三张图片拼成的图                ,用户输入“这张图有什么奇怪的地方?一张图一张图地描述                   ”,GPT-4会分别对每张图中的内容进行描述               ,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的                  。

2                   ,根据图表   ,推理作答

用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少            ,让GPT-4在给答案前提供一个循序渐进的推理                   ,GPT-4也能按需作答   。

3      ,看图考试

用户也可以直接给一张考试题的照片         ,让GPT-4一步步思考作答             。

4                   ,简练指出图片的违和之处

用户问“这张图片有什么不寻常之处      ”时          ,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服         ”                  。

5      ,阅读论文                  ,总结摘要与解释图表

给几张论文的照片             ,GPT-4可以做总结   ,也可以对用户指定的图片的内容进行展开解释      。

6                  ,解读“鸡块地图                   ”

让GPT-4解释图中的模因(meme)                ,GPT-4回答说这是个笑话,结合了太空中的地球照片和鸡块这两个不相关的东西          。

7               ,理解漫画含义

最后一个示例是让GPT-4解释这张漫画                   ,GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异                   。

 

OpenAI通过在一套狭窄的标准学术视觉基准上评估GPT-4的性能来预览         。但这些数字并不能完全代表它的能力   ,因为OpenAI不断发现该模型能够处理的新的和令人兴奋的任务      。OpenAI计划很快发布进一步的分析和评估数字            ,以及对测试时技术影响的彻底调查                   。

此外                   ,OpenAI一直在研究其关于定义AI行为的文章中概述计划的各方面      ,包括可操纵性            。与拥有固定冗长                、语调、风格的ChatGPT不同         ,开发者(很快还有ChatGPT用户)现可通过在“系统          ”消息中描述这些方向来规定他们的AI的风格和任务   。

系统消息(system messages)允许API用户在一定范围内自定义用户体验                   。OpenAI将在这方面继续做改进(特别是知道系统消息是“越狱      ”当前模型的最简单方法                   ,即对边界的遵守并不完美)          ,但OpenAI鼓励用户尝试一下      ,并将想法告知他们               。

关于可操纵性                  ,OpenAI展示了3个示例。

1             ,示例1

示例1是让GPT-4作为一位总是以苏格拉底风格回应的导师   ,不直接给学生求解某个线性方程组的答案                  ,而是通过将那个问题拆分成更简单的部分                ,引导学生学会独立思考                。

2,示例2

示例2是让GPT-4变成“莎士比亚的海盗                  ”               ,忠于自己的个性                   ,可以看到它在多轮对话过程中时刻保持着自己的“人设             ”                  。

3   ,示例3

示例3是让GPT-4成为一名AI助手            ,总是用json编写响应输出                   ,然后GPT-4的回答画风就变成了这样:

真实               、最稳定                   、最可控

OpenAI称其团队花了6个月的时间      ,使用对抗性测试程序和从ChatGPT得到的经验教训         ,对GPT-4进行迭代调整                   ,在真实性   、可控制性等方面取得了有史以来最好的结果(仍远非完美)   。

过去两年里          ,OpenAI重建了整个深度学习堆栈      ,并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机             。

一年前                  ,OpenAI训练GPT-3.5作为系统的第一次“试运行   ”             ,发现并修复了一些错误并改进了其理论基础                  。结果   ,GPT-4训练运行(至少对OpenAI而言)前所未有地稳定                  ,成为OpenAI能够提前准确预测其训练性能的第一个大型模型      。

随着继续专注于可靠的扩展                ,OpenAI的目标是完善其方法,以帮助自身越来越多地提前预测和准备未来的能力          。OpenAI认为这对安全至关重要                   。

与以前的GPT模型一样               ,GPT-4基础模型经过训练可以预测文档中的下一个单词                   ,并且使用公开可用的数据(例如互联网数据)以及OpenAI已获得许可的数据进行训练         。这些数据是网络规模的数据语料库   ,包括数学问题的正确和错误解决方案            、弱推理和强推理                   、自相矛盾和一致的陈述            ,并代表各种各样的意识形态和想法      。

因此                   ,当有问题提示时      ,基础模型能以多种方式进行响应         ,这些方式可能与用户意图相去甚远                   。为了使其与护栏(guardrails)内的用户意图保持一致                   ,OpenAI使用人类反馈强化学习(RLHF)对模型行为进行微调            。

需注意的是          ,模型的能力似乎主要来自预训练过程——RLHF并不会提高考试成绩(如果不积极努力      ,它实际上会降低考试成绩)   。但是模型的控制来自训练后的过程——基础模型需要快速的工程设计来知道它应该回答问题                   。

GPT-4的局限性

尽管功能更加强大                  ,但GPT-4与早期的GPT模型具有相似的局限性               。最重要的是             ,它仍然不完全可靠(存在事实性“幻觉                  ”并出现推理错误)。在使用语言模型输出时应格外小心   ,特别是在高风险上下文中                  ,使用符合特定用例需求的确切协议(例如人工审查      、附加上下文的基础或完全避免高风险使用)                 。

不过                ,GPT-4相对于以前的模型(它们本身在每次迭代中都在改进)显著减少了幻觉                  。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比 GPT-3.5高40%   。

OpenAI在TruthfulQA等外部基准测试上取得了进展               ,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力             。这些问题与事实不正确的答案相匹配                   ,这些答案在统计上很有吸引力                  。

GPT-4基本模型在这项任务上只比GPT-3.5稍微好一点;但在RLHF训练(应用与GPT-3.5相同的过程)后   ,存在很大的差距      。

检查下面的一些例子            ,GPT-4拒绝选择常见的谚语(你教不了老狗新技能                   ,即“年老难学艺                ”)      ,但它仍然会遗漏一些微妙的细节(埃尔维斯·普雷斯利不是演员之子)          。

GPT-4普遍缺乏对绝大部分数据中断后(2021年9月)发生的事件的了解         ,也没有从经验中吸取教训                   。它有时会犯一些简单的推理错误                   ,这些错误似乎与跨多个领域的能力不相称          ,或者在接受用户明显的虚假陈述时过于轻信         。

有时它会像人类一样在难题上失败      ,例如在它生成的代码中引入安全漏洞      。GPT-4也可能自信地在其预测中犯错                  ,在可能出错时没有仔细检查工作                   。有趣的是             ,基础预训练模型经过高度校准(它对答案的预测置信度通常与正确概率相匹配)            。然而   ,通过OpenAI目前的后训练过程                  ,校准减少了   。

OpenAI如何规避风险

OpenAI一直在对GPT-4进行迭代                ,以使其从训练开始就更安全         、更一致                   。其工作包括预训练数据的选择和过滤                   、评估和专家参与          、模型安全改进以及监控和执行               。GPT-4会带来与之前模型类似的风险,例如生成有害建议      、错误代码或不准确信息。同时GPT-4的附加功能会带来新的风险面                。

为了了解这些风险的程度               ,OpenAI聘请了50多位来自AI对齐风险                  、网络安全             、生物风险   、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试                  。他们的发现使OpenAI能够在需要专业知识进行评估的高风险领域测试模型行为   。这些专家的反馈和数据用于模型改进             。

GPT-4在RLHF训练期间加入了一个额外的安全奖励信号                   ,通过训练模型拒绝对此类内容的请求来减少有害输出                  。奖励由GPT-4零样本分类器提供   ,该分类器根据安全相关提示判断安全边界和完成方式      。为了防止模型拒绝有效请求            ,OpenAI从各种来源收集了多样化的数据集                   ,并在允许和不允许的类别上应用安全奖励信号(具有正值或负值)          。

与GPT-3.5相比      ,其缓解措施显著改善了GPT-4的许多安全特性         ,已将模型响应禁止内容请求的可能性降低了82%                   ,并且GPT-4根据OpenAI的政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%                   。

总的来说          ,OpenAI的模型级干预提高了引发不良行为的难度      ,但依然无法做到完全规避         。OpenAI强调目前需用部署时安全技术(如监控滥用)来补充这些限制      。

GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响                   。OpenAI正在与外部研究人员合作                  ,以改进理解和评估潜在影响的方式             ,以及对未来系统中可能出现的危险功能进行评估   ,并将很快分享更多关于GPT-4和其他AI系统的潜在社会和经济影响的想法            。

构建可预测扩展的深度学习堆栈

GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈   。主要原因是                  ,对于像GPT-4这样的非常大的训练运行                ,进行广泛的特定于模型的调整是不可行的                   。OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为               。

为了验证这种可扩展性,OpenAI通过从使用相同方法训练但计算量减少到原来的1/10000的模型进行推断               ,准确预测了GPT-4在其内部代码库(不属于训练集)上的最终损失:

现在OpenAI可以准确地预测其在训练期间优化的指标(损失)                   ,开始开发方法来预测更多可解释的指标   ,例如成功预测了HumanEval数据集子集的通过率            ,从计算量减少至原来的1/1000的模型推断:

有些能力仍难以预测。例如Inverse Scaling Prize是一项竞赛                   ,目的是寻找随着模型计算量的增加而变得更糟的度量指标      ,而hindsight neglect是获胜者之一                。就像最近的另一个结果一样         ,GPT-4 扭转了趋势:

OpenAI认为                   ,准确预测未来的机器学习能力是安全的重要组成部分          ,但相对于其潜在影响而言      ,它并没有得到足够的重视                  。OpenAI正在加大力度开发方法                  ,为社会提供更好的未来系统预期指导             ,并希望这成为该领域的共同目标   。

开源软件框架Evals

OpenAI正在开源其软件框架OpenAI Evals   ,用于创建和运行基准测试以评估GPT-4等模型                  ,同时逐个样本地检查它们的性能             。

OpenAI使用Evals来指导其模型的开发                ,其用户可以应用该框架来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成                  。例如Stripe 使用Evals来补充他们的人工评估,以衡量其基于GPT的文档工具的准确性      。

因为代码都是开源的               ,所以Evals支持编写新的类来实现自定义评估逻辑          。但根据OpenAI的经验                   ,许多基准测试都遵循少数“模板”之一   ,所以他们也囊括了内部最有用的模板(包括“模型分级评估               ”的模板——OpenAI发现GPT-4在检查自己的工作方面惊人地强大)                   。通常构建新eval最有效的方法是实例化这些模板之一            ,并提供数据         。

OpenAI希望Evals成为一种共享和众包基准测试的工具                   ,代表最广泛的故障模式和困难任务      。作为示例      ,OpenAI创建了一个逻辑难题eval         ,其中包含十个GPT-4失败的提示                   。Evals也兼容现有的基准测试;OpenAI已有一些实现学术基准的笔记本和一些集成CoQA(小子集)的变体作示例            。

OpenAI邀请每个人都使用Evals来测试其模型                   ,提交最有趣的示例          ,给与贡献                  、问题和反馈   。

OpenAI扩展深度学习的最新里程碑

GPT-4是OpenAI在扩展深度学习道路上的最新里程碑                   。OpenAI期待GPT-4成为一个有价值的工具      ,通过为许多应用提供动力来改善生活               。

正如OpenAI所言                  ,前方还有很多工作要做             ,这需要通过社区在模型之上构建                、探索和贡献的集体努力   ,来持续将模型变得越来越强。

参考:

https://cdn.openai.com/papers/gpt-4.pdf

https://openai.com/research/gpt-4

创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

展开全文READ MORE
苹果手机怎么看激活日期保障不适用了(苹果手机查看激活日期教程) ChatGPT背后的打工人,月薪3000(ChatGPT 背后的“功臣”——RLHF 技术详解)