OpenAI刚刚发布GPT-Realtime，AI Agent进入超逼真对话时代

Last updated: 2025/08/29 at 2:19 下午

孙婷婷-LowCode低码时代 11月 ago

今天凌晨1点，OpenAI进行了技术直播发布了语音模型GPT-realtime。

GPT-realtime是一个专用于语音AIAgent的多模态模型，能够生成更加自然流畅的语音，完美模仿人类丰富多样的语调、情感以及语速，支持图像理解并将其与语音或文本对话相结合使用，非常适用于客服、教育、金融、医疗等领域打造语音智能体。

GPT-realtime还新增了Marin与Cedar两种极具特色的语音，同时对原有的8种语音也进行了全面升级。

与传统纯语音模型不同的是，GPT-realtime还具备智力、推理和理解能力，例如，能够敏锐捕捉笑声等非语言信号，在句子中间自如地切换语言，并根据场景需求灵活调整语气。

根据评估数据显示，在多种语言环境下，GPT-realtime对字母数字序列的检测准确率大幅提升，在用于衡量推理能力的BigBenchAudio评估中，准确率高达82.8%成为目前最强智能语音模型。

完整直播视频

指令遵循能力的改进也是GPT-realtime的一大亮点。在构建语音应用时，开发者可对模型进行一系列指令自定义，包括如何说话、特定场景下该说什么、该做什么以及不该做什么等。

GPT-realtime针对这一点进行了深度优化，即便是极为细微的指令，也能对其产生显著的引导效果。在衡量指令遵循准确率的MultiChallenge音频基准测试中，GPT-realtime的得分从旧模型的20.6%提升到30.5%，进步十分显著。

在函数调用能力方面，GPT – realtime从调用相关函数、把握调用时机以及选用合适的参数调用函数这三个关键维度进行了全方位优化。在ComplexFuncBench测试中，得分从旧模型的49.7%飙升至66.5%。

异步函数调用功能也得到了极大改进，长时间运行的函数调用不再会成为会话流程的绊脚石，模型在耐心等待结果的同时，依然能够丝滑进行对话，并且这一强大功能无需开发者更新代码，开箱即用。

支持图像输入是GPT–realtime特色功能之一，开发者可在Realtime API会话中，可以自由地将图像、照片、截图与音频或文本一并添加。模型由此具备了基于用户实际所见内容展开对话的能力，用户能够提出诸如“你看到了什么？”或“读取这张截图中的文字”等多样化问题。

值得一提的是，该系统并非将图像视为实时视频流，而是巧妙地将其类比为在对话中插入的一张图片，开发者可通过应用自主决定向模型分享哪些图像以及分享的时机，从而牢牢掌握模型看到的内容与响应时机，实现更加个性化、精准化的交互体验。

与GPT – realtime模型同步上线的，还有Realtime API的一系列全新功能。从今天开始，在Realtime API会话中，开发者只需在会话配置中轻松传入远程MCP服务器的URL，即可快速启用MCP支持。

连接建立后，API会自动承担起工具调用的重任，无需开发者再手动搭建繁琐的集成环境。这种配置方式为扩展智能体功能提供了极大的便利，开发者只需将会话指向不同的MCP服务器，相应的工具便能即刻投入使用，大大提高了开发效率。

此外，Realtime API还新增了多项功能，旨在进一步提升其集成便捷性与生产使用灵活性。其中，会话初始协议支持使得Realtime API能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他SIP终端建立连接，极大地拓展了应用的连接范围。

而可复用提示功能则允许开发者像在Responses API中一样，保存并在多个Realtime API会话中重复使用提示，这些提示涵盖了开发者消息、工具、变量以及用户/助理示例消息等丰富信息，为开发工作带来了极大的便利，有效减少了重复性劳动，提高了开发效率。

在安全与隐私保障方面，Realtime API内置了多层严密的防护与缓解措施，全力防止滥用情况的发生。通过采用主动分类器，在会话过程中实时监测对话内容，一旦检测到对话违反有害内容准则，会立即终止相关会话，从源头上保障了使用环境的安全与健康。

开发者还可借助Agents SDK轻松添加自定义安全防护措施，实现更加个性化、精细化的安全管理。在使用政策上，明确禁止将服务输出用于垃圾邮件、欺诈或其他有害用途，并要求开发者在上下文未明确表明的情况下，必须向终端用户清晰告知其正在与人工智能进行交互。此外，Realtime API采用预设语音，有效防止了恶意人员冒充他人的风险。

在定价与可用性方面，自发布之日起，所有开发者均可自由使用正式开放的Realtime API与全新的GPT-realtime模型。与之前的gpt-4o-realtime-preview相比，GPT-realtime的价格降低了20%，具体为音频输入token单价32美元/百万个（缓存输入token单价0.40美元/百万个），音频输出token单价64美元/百万个。

此外，OpenAI还为对话上下文新增了精细控制功能，开发者可灵活设置智能token限制，一次性截断多轮对话内容，从而大幅降低长会话的成本。

API详情：https://platform.openai.com/docs/guides/realtime