点击麦克风按钮开始与 AI 进行实时语音对话,感受无缝的交互体验
OpenAI 推出了其最先进的语音到语音模型 gpt-realtime,以及对 Realtime API 的重大升级,使 AI 代理能够以人类级别的语音质量进行对话和聆听。
超越清晰度,实现自然性。该模型生成高度表现力和情感化的语音,遵循关于语调和口音的详细指令,使每次对话都感觉像人类。
该模型现在更好地理解非语言线索(如笑声和停顿),在对话中无缝切换语言,并表现出更强的逻辑推理能力,实现更深层的沟通。
对话不再局限于语音。通过图像输入,AI 可以"看到"世界,实现基于视觉的讨论并解锁无数新的用例。
轻松将您的 AI 代理集成到全球电话网络中。无论是呼叫中心还是自动应答器,您的 AI 现在都可以直接通过电话线进行通信。
与经典管道不同,gpt-realtime 使用单一的统一模型,实现更快、更自然、更上下文感知的对话。
多个独立的模型导致更高的延迟和细微差别的丢失。
单一模型直接处理音频,保持细微差别并减少延迟。
发现使 gpt-realtime 成为游戏规则改变者的核心特性,通过官方公告中的真实示例进行演示。
从绝望到兴奋,只需一瞬间。该模型可以表现广泛的情感范围。在演示中,它表达了对丢失彩票的绝望("哦,不。我不敢相信我丢失了中奖彩票。"),并在找到它时立即切换到兴奋("我找到了。我赢了!")。它还可以在单个响应中无缝切换语言。
遵循规则,即使在压力下也是如此。您可以为 AI 设定严格的规则。当被指示不处理超过 10 美元的退款时,该模型礼貌但坚定地拒绝了 25 美元的请求,即使用户施加压力。它的回应"我完全理解压力,但我真的不能。这是一个严格的限制"展示了其可靠性。
它看到您所看到的。API 首次接受图像输入。在演示中,该模型准确描述了一张孩子骑玩具独角兽的照片,注意到小细节如"地板上的木制玩具火车轨道",甚至提供了深思熟虑的建议:"轻轻引导他们下来可能有助于保持安全。"
在与客户密切合作中训练,该模型在关键行业基准测试中显示出显著收益。
在短短几天内,T-Mobile 展示了 gpt-realtime 改变复杂客户交互的力量。
"看,简单地说,它更加人性化...我们喜欢这个模型的是它陪伴客户,在客户所在的地方与客户会面。它遵循多个不同问题的随机漫步。这是一个重新发明您的流程的机会。"— Srini Gopalan, T-Mobile 首席运营官
设备升级过程对客户来说往往令人困惑和复杂,导致挫折感和长时间的支持通话。
由 gpt-realtime 提供支持的 AI 助手,可以自然地处理随机问题,陪伴客户,并使过程感觉像对话。
基于官方 gpt-realtime 公告回答的关键问题。
gpt-realtime 使用单一的统一模型,直接从音频输入生成音频输出,避免了传统管道中多个独立模型导致的延迟和细微差别丢失。
该模型在与客户的密切合作中训练,专注于指令遵循、函数调用准确性和安全性,确保 AI 代理按设计执行。
MCP(Model Context Protocol)使 AI 能够更准确地调用正确的工具和 API,这对于构建实用和有效的 AI 代理至关重要。
gpt-realtime 是一个新的模型,为实时语音交互而设计,与现有的 ChatGPT 语音功能互补。
开始使用 gpt-realtime 的力量构建下一代语音启用应用程序。探索文档并为您的下一个项目获得灵感。