你好 GPT-4o

梁小道大约 3 分钟

介绍

2024 年 5 月 13 日, Openai 宣布推出 GPT-4o，这是他们的新旗舰模型，可以实时对音频、视觉和文本进行推理。

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似（在新窗口中打开）在一次谈话中。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

模型能力

音频：在GPT-4o之前也可以使用语言模式，但延迟无法做到毫秒级

语音模式：平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)

语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

GPT-4o：平均延迟达到 320ms

GPT-4o是通过跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是Openai第一个结合所有这些模式的模型，因此他们也仍然只是浅尝辄止地探索该模型的功能及其局限性。

探索能力

文本
视觉
音频
视频

模型可用性

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。Openai正在免费套餐中提供 GPT-4o，并向 Plus 用户提供高达 5 倍的消息限制。将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

体验

地址特地去chatgpt官网看了下，结果发现还是没有GPT-4o这个模型可供选择。所以说明也不是所有人都可以免费使用，解释权在openai官方。看到网上那些夸张的标题我真的是吐了。

提示

对话窗口

发现只有3.5可用