多模态内容层面（OpenAI GPT-4震撼发布：多模态大模型）

时间2025-09-19 12:56:18分类IT科技浏览5437

导读：前言：...

前言：

🏠个人主页：以山河作礼。

📝📝:本文章是帮助大家更加了解GPT4 ，一起见证Al的成长！

🎈🎈欢迎大家一起学习，一起成长！！

3 月 14 日晚间，OpenAI 宣布发布 GPT-4 。

“我们创建了 GPT-4 ，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平 ” ，OpenAI 表示。

发布要点

GPT-4可以接受图像和文本输入，而GPT-3.5只接受文本。 GPT-4在各种专业和学术基准上的表现达到 “人类水平 ” 。例如，它通过了模拟的律师考试，分数约为应试者的前10% 。 OpenAI花了6个月的时间，利用从对抗性测试项目以及ChatGPT中获得的经验，反复调整GPT-4 ，结果在事实性、可引导性和可控制方面取得了

“史上最佳结果” 。在简单的聊天中，GPT-3.5和GPT-4之间的区别可能微不足道，但是当任务的复杂性达到足够的阈值时，区别就出来了，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。 GPT-4能对相对复杂的图像进行说明和解释，比如说，从插入iPhone的图片中识别出一个Lightning

Cable适配器（下文有图片）。图像理解能力还没有向所有OpenAI的客户开发，OpenAI正在与合作伙伴Be My Eyes进行测试。 OpenAI承认，GPT-4并不完美，仍然会对事实验证的问题产生错乱感，也会犯一些推理错误，偶尔过度自信。开源OpenAI Evals,用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。

OpenAI 联合创始人 Sam Altman 表示，它是“迄今为止功能最强大、最一致的模型 ” ，能够使用图像和文本。

GPT4的新功能

GPT-4:我能玩梗图

首先，看图能力可以用来解释表情包、梗图。

提问这张图哪里好笑？GPT-4可以按顺序描述出每一格的内容，并总结出笑点：

为什么这张图片很可笑？GPT-4 回答道，VGA 线充 iPhone。

GPT4:理解图片

当你给 GPT-4 发送下面这张图片，并询问它，该图片有哪些不寻常的地方？ GPT-4 回答：这张照片的不同寻常之处在于，一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

(看图）手套掉下去会怎样?

GPT-4 回答道,它会掉到木板上，并且球会被弹飞

拍一张照片上传给GPT-4 ，它就可以立马生成网站的HTML代码！

GPT4:识别与解析图片内容

在性能表现上，OpenAI直接甩出一句话：

在各种专业和学术基准上和人类相当！

最近这几个月，ChatGPT 的爆火，让人们惊叹于人工智能强大的聊天能力。GPT4 出来后，可以看到，在聊天之外，人工智能的能力已不断扩展其外延。

ChatGPT 用的语言模型是 GPT-3.5 。在谈到 GPT-4 比前一个版本强大在哪里时，OpenAI

称，虽然这两个版本在随意的谈话中看起来很相似，但“当任务的复杂性达到足够的阈值时，差异就会出现 ” ，GPT-4

更可靠、更有创意，并且能够处理更细微的指令。该公司表示，GPT-4 响应禁止内容请求的可能性比其前一个版本低 82% 。OpenAI

表示，在内部评估中，GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40% 。

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大 ” ，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行成本更高。

OpenAI 称它使用了微软 Azure 来训练模型，但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

史上最强大模型

正如之前传言，GPT-4确实拥有多模态能力，可以接受图像输入并理解图像内容。并且可接受的文字输入长度也增加到3.2万个token（约2.4万单词）。升级之后，GPT-4在各种职业和学术考试上表现和人类水平相当。比如模拟律师考试，GPT-4取得了前10%的好成绩，相比之下GPT-3.5是倒数10% 。做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800）。

怎样面对GPT4

GPT-4 再次给我们敲响了警钟：拥有如此强大的编程能力，AI 真的会取代程序员？

前段时间，前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 还曾对此发出断言，表示“生成式 AI 将在 3 年内终结编程 ” ，放在当下来看，也许 Welsh 所言非虚。

Welsh 认为，由于 ChatGPT 和 Copilot

等技术的出现，编程正处于从人类工作转变为机器人工作的转折点。在他看来，程序员需要演变成 AI

程序的“老师 ”——或者产品经理，或者代码评审人员。他认为这两个人类角色相对来说不那么受机器人的影响。“不要指望你的程序员职业生涯会一直持续下去，因为机器正在取代这个角色。 ”Welsh说道。

也许我们正处于一个动荡的周期之中，现在的问题不是会不会被取代，而是 AI 将在多大程度上改变软件行业，而我们也需要为未来做好准备：现在就必须习惯人工智能，毕竟让 AI 帮助我们编程就在不远的未来。

申请 GPT-4 API

目前，OpenAI 已面向开发者开放 GPT-4 API 的申请通道，大家想提前使用的话，可以先提交申请，进入 waitlist 中等待通过。

申请通道：https://openai.com/waitlist/gpt-4-api

获得访问权限后，用户当前还是只能向 GPT-4 模型发出纯文本请求，图像请求可能得等稍晚一些时间才对外开放。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

展开全文READ MORE

windows7如何获得管理员权限（win7如何获得管理员权限？）