体验真正的实时 GPT 对话

点击麦克风按钮开始与 AI 进行实时语音对话,感受无缝的交互体验

麦克风关闭

💡 使用提示:

  • 点击麦克风按钮开始录音
  • 以正常音量说话
  • AI 将实时回答您的问题
  • 再次点击按钮停止录音

深入了解 OpenAI 的 gpt-realtime:实时语音 AI 的革命

OpenAI 推出了其最先进的语音到语音模型 gpt-realtime,以及对 Realtime API 的重大升级,使 AI 代理能够以人类级别的语音质量进行对话和聆听。

全新的 gpt-realtime 模型:核心能力的飞跃

卓越的音频质量和情感

超越清晰度,实现自然性。该模型生成高度表现力和情感化的语音,遵循关于语调和口音的详细指令,使每次对话都感觉像人类。

增强的智能和理解

该模型现在更好地理解非语言线索(如笑声和停顿),在对话中无缝切换语言,并表现出更强的逻辑推理能力,实现更深层的沟通。

Realtime API 升级:为生产而构建

图像输入能力

对话不再局限于语音。通过图像输入,AI 可以"看到"世界,实现基于视觉的讨论并解锁无数新的用例。

SIP 协议支持

轻松将您的 AI 代理集成到全球电话网络中。无论是呼叫中心还是自动应答器,您的 AI 现在都可以直接通过电话线进行通信。

卓越的语音到语音架构

与经典管道不同,gpt-realtime 使用单一的统一模型,实现更快、更自然、更上下文感知的对话。

传统管道

音频输入
语音转文本模型
语言模型 (LLM)
文本转语音模型

多个独立的模型导致更高的延迟和细微差别的丢失。

gpt-realtime 统一模型

音频输入
音频输出
理解语调和情感
听到非语言线索

单一模型直接处理音频,保持细微差别并减少延迟。

实时语音的力量在行动

发现使 gpt-realtime 成为游戏规则改变者的核心特性,通过官方公告中的真实示例进行演示。

情感范围和多语言语音

从绝望到兴奋,只需一瞬间。该模型可以表现广泛的情感范围。在演示中,它表达了对丢失彩票的绝望("哦,不。我不敢相信我丢失了中奖彩票。"),并在找到它时立即切换到兴奋("我找到了。我赢了!")。它还可以在单个响应中无缝切换语言。

可操控性和安全性

遵循规则,即使在压力下也是如此。您可以为 AI 设定严格的规则。当被指示不处理超过 10 美元的退款时,该模型礼貌但坚定地拒绝了 25 美元的请求,即使用户施加压力。它的回应"我完全理解压力,但我真的不能。这是一个严格的限制"展示了其可靠性。

视觉理解

它看到您所看到的。API 首次接受图像输入。在演示中,该模型准确描述了一张孩子骑玩具独角兽的照片,注意到小细节如"地板上的木制玩具火车轨道",甚至提供了深思熟虑的建议:"轻轻引导他们下来可能有助于保持安全。"

数据驱动的性能

在与客户密切合作中训练,该模型在关键行业基准测试中显示出显著收益。

82.8%
推理 (Big Bench Audio)
在专为评估基于音频的语言模型推理能力而设计的基准测试中的准确性。
30.5%
指令遵循 (MultiChallenge)
在评估处理具有复杂、现实挑战的多轮对话的基准测试中的准确性。
66.5%
函数调用 (ComplexFuncBench)
在测量处理具有挑战性的多步函数调用任务的基准测试中的准确性。

客户聚焦

与 T-Mobile 的真实世界影响

在短短几天内,T-Mobile 展示了 gpt-realtime 改变复杂客户交互的力量。

"看,简单地说,它更加人性化...我们喜欢这个模型的是它陪伴客户,在客户所在的地方与客户会面。它遵循多个不同问题的随机漫步。这是一个重新发明您的流程的机会。"
— Srini Gopalan, T-Mobile 首席运营官

挑战

设备升级过程对客户来说往往令人困惑和复杂,导致挫折感和长时间的支持通话。

解决方案

由 gpt-realtime 提供支持的 AI 助手,可以自然地处理随机问题,陪伴客户,并使过程感觉像对话。

常见问题

基于官方 gpt-realtime 公告回答的关键问题。

gpt-realtime 的核心架构是什么?

gpt-realtime 使用单一的统一模型,直接从音频输入生成音频输出,避免了传统管道中多个独立模型导致的延迟和细微差别丢失。

模型是如何训练得更可靠的?

该模型在与客户的密切合作中训练,专注于指令遵循、函数调用准确性和安全性,确保 AI 代理按设计执行。

什么是 MCP,为什么它对语音很重要?

MCP(Model Context Protocol)使 AI 能够更准确地调用正确的工具和 API,这对于构建实用和有效的 AI 代理至关重要。

这会取代 ChatGPT 中现有的语音吗?

gpt-realtime 是一个新的模型,为实时语音交互而设计,与现有的 ChatGPT 语音功能互补。

为语音 AI 革命做好准备

开始使用 gpt-realtime 的力量构建下一代语音启用应用程序。探索文档并为您的下一个项目获得灵感。