GPT-4o：OpenAI 发布最强人机交互模型

chatgpt2024-05-14 15:06:09503

早在 5 月 11 日，Sam 就在推文中表示：OpenAI 并没有推出 GPT-5，或搜索引擎，但团队一直在努力研发一些认为大家会喜欢的新东西（感觉就像是魔法一样）！

现在来看应该说的就是 GPT-4o 了，它在免费和付费账户中均可使用（应该是目前最强的免费模型了）。除此之外，ChatGPT 页面也进行了许多细节方面的优化，并且推出了桌面应用，进一步提升用户体验。

GPT-4o

OpenAI 最新的旗舰模型，能够实时处理音频、视觉和文本。

GPT-4o（“o”代表“omni”）是 OpenAI 在实现更自然人机交互方面的重要进展（Hello GPT-4o^[1]）。它能够接受文本、音频和图像的任意组合输入，并生成相应的输出，包括文本、音频和图像。该模型在音频输入的响应时间非常短，最短可达 232 毫秒，平均为 320 毫秒，接近人类对话的反应时间。在文本（英语）和代码方面，GPT-4o 的表现与 GPT-4 Turbo 相当，但在处理非英语语言文本方面有显著提升，同时在 API 中的速度更快且成本降低 50%。此外，GPT-4o 在视觉和音频理解方面表现尤为出色。

在 GPT-4o 之前，使用语音模式与 ChatGPT 对话的平均延迟时间分别为 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒。实现这一功能的流水线涉及三个独立模型（音频 → 文本 → 音频）：一个用于将音频转录为文本，GPT-3.5 或 GPT-4 处理文本并生成文本，然后第三个模型将文本转换回音频。这种方式导致 GPT-4 无法直接感知语调、多位说话者或背景噪音，也无法生成笑声、歌唱或表达情感。

为了克服这些局限，OpenAI 训练了一个新的端到端跨文本、视觉和音频的单一模型（GPT-4o），这意味着所有输入和输出都由同一个神经网络处理。由于这是 OpenAI 第一个结合所有这些模态的模型，因此其功能和局限性仍在探索中。

它将首先在 ChatGPT 和 API 中作为文本和视觉模型提供（ChatGPT 将继续通过现有的语音模式功能支持语音）。具体来说，GPT-4o 将在 ChatGPT 免费版、Plus 版和团队版（企业版即将推出）以及 Chat Completions API、Assistants API 和 Batch API 中提供。

多模态交互

GPT-4o 展现了强大的多模态处理和交互能力，能够在多种情境下提供帮助和娱乐。它可以通过合作描述和记录事件，最终将整个过程编成歌曲。在教育方面，GPT-4o 可以帮助学生解答数学问题，提供逐步指导和鼓励。此外，GPT-4o 还可以教授其他语言学习（如中文、西班牙语），进行实时翻译，并作为语音客服处理客户服务请求。对于盲人，GPT-4o 可以充当“第三只眼”，帮助描述当前环境。

在娱乐和生活中，GPT-4o 可以在生日时唱生日歌，为新手父母讲故事，分享养宠物的乐趣，并在失眠时唱自编的轻柔摇篮曲。用户还可以调整 GPT-4o 的语速。在会议与社交中，GPT-4o 能在视频会议中充当助手，记录发言并总结要点；在朋友聚会中充当裁判；并根据需求提供赞美或讽刺。GPT-4o 还能猜测用户所处环境，帮助准备面试或相亲的穿着建议，并分饰两角演唱二重唱。通过这些功能，GPT-4o 展现了在多模态交互、教育、语言学习、生活娱乐和社交等方面的广泛应用潜力。

以上视频演示合集出自 OpenAI，视频翻译由 @dotey 提供（仅供参考）。

GPT-4 Turbo vs. GPT-4o

GPT-4o 拥有相同的高智能性，但比 GPT-4 Turbo 更快、更便宜，且速率限制更高。具体来说：

价格：GPT-4o 比 GPT-4 Turbo 便宜 50%，输入每百万 tokens 收费 $5，输出每百万 tokens 收费 $15。
速率限制：GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万 tokens。
速度：GPT-4o 是 GPT-4 Turbo 的两倍快。
视觉：在视觉能力相关评估中，GPT-4o 的表现优于 GPT-4 Turbo。
多语言：GPT-4o 对非英语语言的支持优于 GPT-4 Turbo。

GPT-4o 目前有 128k 的上下文窗口，知识截止日期为 2023 年 10 月。

GPT-4o API

任何拥有 OpenAI API 帐户的人都可以使用 GPT-4o 模型，可以在 Chat Completions API^[2]、Assistants API^[3] 和 Batch API^[4] 中使用此模型。此模型还支持功能调用（function calling）和 JSON 模式。也可以通过 Playground^[5] 开始使用。

在成功支付 $5 或更多（使用级别 1）后，将能够通过 OpenAI API 访问 GPT-4、GPT-4 Turbo 和 GPT-4o 模型。

模型价格

GPT-4o 是 OpenAI 目前最先进的多模态模型，比 GPT-4 Turbo 更快、更便宜，并且具有更强的视觉能力。该模型支持 128K 的上下文窗口，知识截止日期为 2023 年 10 月。
GPT-4 Turbo 提供 128K 的上下文窗口，知识截止日期为 2023 年 4 月，并具备基本的视觉支持功能。
GPT-4 是 OpenAI 的原始 GPT-4 模型具备广泛的通用知识和领域专业知识。

Model	Input	Output
Modelgpt-4o	Input$5.00 / 1M tokens	Output$15.00 / 1M tokens
Modelgpt-4o-2024-05-13	Input$5.00 / 1M tokens	Output$15.00 / 1M tokens
Modelgpt-4-turbo	Input$10.00 / 1M tokens	Output$30.00 / 1M tokens
Modelgpt-4-turbo-2024-04-09	Input$10.00 / 1M tokens	Output$30.00 / 1M tokens
Modelgpt-4	Input$30.00 / 1M tokens	Output$60.00 / 1M tokens
Modelgpt-4-32k	Input$60.00 / 1M tokens	Output$120.00 / 1M tokens
Modelgpt-3.5-turbo-0125	Input$0.50 / 1M tokens	Output$1.50 / 1M tokens
Modelgpt-3.5-turbo-instruct	Input$1.50 / 1M tokens	Output$2.00 / 1M tokens

了解更多 API pricing^[6]。

GPT-4o 模型评估

GPT-4o 不仅在传统领域表现出色（在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平），还在多语言、音频和视觉能力方面设立了新的标杆。

推理能力

GPT-4o 在 0-shot COT MMLU（一般知识问题）上取得了 88.7% 的新高分。所有这些评估都是通过 OpenAI 新的简单评估库进行的。此外，在传统的 5-shot no-CoT MMLU 上，GPT-4o 创下了 87.2% 的新高分。（注：Llama3 400b 仍在训练中）

音频语音识别

GPT-4o 在所有语言的语音识别性能上都显著优于 Whisper-v3，尤其是在资源较少的语言方面。

音频翻译

GPT-4o 在语音翻译方面设立了新的行业标准，并在 MLS 基准测试中优于 Whisper-v3。

M3Exam

M3Exam 基准测试同时评估多语言和视觉能力，包含来自其他国家标准化测试的多项选择题，有时包括图表和图形。GPT-4o 在这个基准测试中在所有语言上都表现得比 GPT-4 更强。

视觉理解

GPT-4o 在视觉感知基准测试中达到了最先进的性能。所有视觉评估都是 0-shot，包括 MMMU、MathVista 和 ChartQA 的 0-shot COT。

如何使用

ChatGPT 免费版

免费版用户将默认使用 GPT-4o，并限制使用 GPT-4o 发送消息的数量，这取决于当前的使用情况和需求。当不可用时，免费版用户将自动切换回 GPT-3.5。还可以有限地使用高级工具发送消息，例如：

数据分析（Data analysis）
文件上传（File Uploads）
联网（Browse）
发现和使用 GPTs（Discovering and using GPTs）
视觉（Vision）

GPT-4o 具有先进的视觉能力，能够更准确地理解你共享的图像，免费版用户随时可以点击 ChatGPT Plus 按钮来升级。

ChatGPT Plus 和团队版

ChatGPT Plus 和团队版用户可以在 chatgpt.com（这是新域名地址，原域名为 chat.openai.com）上访问 GPT-4 和 GPT-4o，并有更大的使用上限。ChatGPT Plus 和团队版用户可以从页面顶部的下拉菜单中选择 GPT-4o。

自 2024 年 5 月 13 日起，Plus 用户每 3 小时最多可以发送 80 条 GPT-4o 消息和 40 条 GPT-4 消息。在高峰时段，OpenAI 可能会减少限制，以确保 GPT-4 和 GPT-4o 能够被尽可能多的人使用。ChatGPT 团队工作区用户的 GPT-4 和 GPT-4o 消息上限高于 ChatGPT Plus。

? 注意
未使用的消息不会累积（即使你等待了 6 个小时，接下来的 3 小时内也不会有 80 条消息可用）。

ChatGPT 企业版

ChatGPT 企业客户将很快能够访问 GPT-4o。

ChatGPT 企业计划专为大型企业设计，提供无限制的高速访问 GPT-4o 和 GPT-4。在 ChatGPT 企业帐户上的新对话将默认使用 GPT-4o，可以从页面顶部的下拉菜单中选择其他模型。

ChatGPT 企业版还提供企业级的安全性和隐私保护、更长的上下文窗口以处理更长的输入、无限制的高速访问高级工具，如数据分析、定制选项等。

ChatGPT 桌面应用

OpenAI 首席技术官 Mira Murati 在 5 月 13 日的直播（Introducing GPT-4o^[7]）中分享了一些 ChatGPT 的最新更新，并解释说：“我们知道这些模型越来越复杂，但我们希望互动体验变得更加自然、简便，让你不再关注界面，而是专注于与 ChatGPT 的协作。”

OpenAI 推出了一个新的 macOS ChatGPT 桌面应用程序，旨在简化用户的工作流程（无论是免费还是付费用户都可以使用此应用）。用户可以通过键盘快捷键（Option + Space）立即向 ChatGPT 提问，并直接在应用中拍摄和讨论截图。

还可以通过桌面应用程序与 ChatGPT 进行语音对话，未来将加入 GPT-4o 的新音频和视频功能。无论你是想为公司头脑风暴新想法、准备面试还是讨论某个话题，只需点击桌面应用右下角的耳机图标即可开始语音对话。该应用现在开始向 Plus 用户推出，并将在未来几周内向更多用户开放。而 Windows 版本则计划在今年晚些时候推出。

其他动态

Sam blog

关于 OpenAI GPT-4o 最新公告中的两件事，Sam Altman 写了一篇文章（Sam Blog - GPT-4o^[8]）想特别强调。

首先，Altman 重申了 OpenAI 的使命之一，即将强大的人工智能工具免费或以极优惠的价格提供给大众。他为在 ChatGPT 中免费提供世界上最优秀的模型而感到自豪，这一服务没有广告或其他干扰。当初创建 OpenAI 时，他们的目标是开发人工智能并利用它为世界带来各种好处。然而，现在看来，他们将开发人工智能，并由其他人利用它创造各种令人惊叹的事物，而所有人都能从中受益。作为一家企业，他们将找到许多收费的项目，这将帮助他们为全球数十亿人提供免费的卓越人工智能服务。

其次，Altman 对新推出的语音和视频模式感到非常兴奋，认为这是他用过的最好的计算机界面。它像电影中的人工智能一样，令人惊讶地成为现实。实现人类级别的响应时间和表达能力带来了巨大的改变。原始的 ChatGPT 仅展示了语言界面的一小部分可能性，而新功能带来的体验截然不同。它快速、智能、有趣、自然且非常有帮助。与计算机对话从未如此自然，但现在确实如此了。随着增加可选的个性化、访问用户信息、代表用户采取行动等功能，Altman 看到一个令人兴奋的未来，在这个未来中，人们可以利用计算机完成比以往更多的任务。

最后，Altman 衷心感谢了投入大量工作使这一切成为现实的团队。

Jim Fan

5 月 13 日，Jim Fan 发帖简要说明了要实现沉浸式语音助手体验需要面临的诸多困难。

要实现沉浸式和魔幻般的语音助手体验，关键在于突破传统的三阶段处理模式（语音识别、语言生成、语音合成），因为这种模式会导致巨大的延迟，影响用户体验。自然对话需要边听边思考、适时回应、预测对方说完并立刻接话、有机插话、优雅处理打断和多人群聊等能力。要解决实时对话问题，不能仅仅依次加快每个神经网络的速度，而是要重新设计整个处理架构，尽可能重叠每个组件，并实现实时干预。最终，最理想的方法是设计一个端到端的神经网络，直接将音频映射为音频。期待 OpenAI 在这方面的突破。

? 语音处理三阶段
语音识别（ASR）：将音频转换为文本（如 Whisper）
语言模型（LLM）：根据输入文本生成回复文本
语音合成（TTS）：将生成的文本转换回音频（如 ElevenLabs 或 VALL-E）

用户分享

案例 1

GPT-4o 在处理 18 世纪的手写文字方面表现得非常出色。我给它提供了一封信并让它进行转录，结果只有几处非常微小的错误……实在令人惊叹！

案例 2

GPT-4o 的速度和额外的编码能力使其在分析方面比 GPT-4 更加强大。当要求其“分析、可视化、进行复杂分析”时，GPT-4o 能在没有任何其他背景信息的情况下，对一组超级英雄数据集进行令人印象深刻的可视化、主成分分析（PCA）和聚类分析等。

GPT-4o 能力探索

这部分内容是对 GPT-4o 能力的部分探索，截图取自 OpenAI blog，希望可以对你了解和使用 GPT-4o 有所启发。

注：Input 为输入的 Prompt，Output 为输出的内容。

视觉叙事 - 机器人写作障碍

视觉叙事 - 邮递员莎莉

电影《侦探》的海报创作

角色设计 - 机器人吉里

可迭代编辑的诗意排版

GPT-4o 纪念币设计

照片转漫画

文本转字体

3D 物体合成

品牌植入 - 杯垫上的标志

诗意排版

多行渲染 - 机器人发短信

多人会议记录

讲座总结

变量绑定 - 堆叠方块

具体诗歌

References

[1]

Hello GPT-4o: https://openai.com/index/hello-gpt-4o

[2]

Chat Completions API: https://platform.openai.com/docs/guides/text-generation/chat-completions-api

[3]

Assistants API: https://platform.openai.com/docs/api-reference/assistants

[4]

Batch API: https://platform.openai.com/docs/guides/batch/batch-api

[5]

Playground: https://platform.openai.com/playground

[6]

API pricing: https://openai.com/pricing

[7]

Introducing GPT-4o: https://www.youtube.com/live/DQacCB9tDaw

[8]

Sam Blog - GPT-4o: https://blog.samaltman.com/gpt-4o

本文链接：https://dinjianwenan.top/chatgpt_216.html

ChatGPT4.5 GPT4.5入口 GPT4.5网页版 GPT4.5发布 GPT4.5网址 GPT4.5官网 GPT4.5 GPTs分润功能 sora测试版 256k上下文

当ChatGPT说中文，智能对话背后的「潜台词」与实战指南
《当ChatGPT说中文：智能对话背后的「潜台词」与实战指南》揭示了AI语言模型在中文场景下的运行逻辑与优化策略。尽管ChatGPT支持中文交互，但其底层训练以英文为主导，导致中文回答可能隐含逻辑断层...
GPT4.5资讯2025-02-221中文对话 chatgpt中文对话
微软ChatGPT，一场静悄悄的生产力革命
深夜的办公室里，市场总监李薇对着电脑屏幕叹了口气，她刚收到第12版营销方案修改意见，团队已经为这个项目鏖战三周，当她准备再次召集会议时，屏幕上突然跳出的Outlook邮件草稿助手吸引了她的注意——只需...
GPT4.5资讯2025-02-221微软ChatGPT
为什么你总找不到ChatGPT-4o官网？这些隐藏入口和行业真相必须了解
"明明搜了十几页结果，点进去全是山寨网站！"凌晨两点，程序员小林第7次刷新浏览器，屏幕上跳出的"ChatGPT4o官方注册通道"广告让他差点摔了鼠标，三天前团队...
GPT4.5资讯2025-02-211chatgpt4o官网
ChatGPT官网全英文？三个技巧助你无障碍使用
针对ChatGPT官网全英文界面带来的使用障碍，本文提供三大实用技巧：利用浏览器内置翻译功能（如Chrome右键「翻成中文」）或安装沉浸式翻译插件，实现网页内容实时双语对照；掌握基础AI术语（如Pro...
GPT4.5资讯2025-02-2120无障碍使用技巧 ChatGPT官网指南 chatgpt官网英文
ChatGPT隐藏入口全解析，这8个场景你可能从未想到
《ChatGPT隐藏入口全解析：8个非常规应用场景揭秘》深度挖掘了人工智能助手在特殊场景下的创新使用方式。不同于常规对话模式，文中揭示了八大隐藏功能入口：1）通过特定代码指令唤醒高级调试模式，实现精准...
GPT4.5资讯2025-02-2027ChatGPT隐藏入口应用场景解析 chatgpt在哪用