OpenAI 将 GPT-5 级推理能力引入实时语音 API,上下文窗口从 32K 扩至 128K,并配套推出实时翻译和语音转录两款辅助模型,首次构建完整的语音 Agent 工具链。
GPT-5 级推理进入语音交互
GPT-Realtime-2 是 OpenAI 首个在语音对话中集成 GPT-5 级别推理能力的模型。与上一代 GPT-Realtime-1.5 相比,核心升级包括:
- 上下文窗口从 32K 扩至 128K tokens,支持在更长语音会话中维持用户约束、偏好和业务逻辑。
- 支持工具调用(function calling),可在对话过程中实时查询日历、搜索系统等外部工具,并支持 MCP 协议。
- 处理中途打断:用户可随时打断语音输入,模型能正确处理中断并继续对话。
- 领域知识增强:医疗术语、专有名词识别准确度提升。
开发者可通过 reasoning.effort 参数调节推理强度,分为 minimal、low、medium、high、xhigh 五档。官方建议生产环境从 low 起步,按需提高计算量以换取更完整的判断。
Benchmark 数据
两个核心评测基准的结果:
| 基准 | 结果 |
|---|---|
| Big Bench Audio (high) | 96.6%,比 GPT-Realtime-1.5 高出 15.2 个百分点 |
| Audio MultiChallenge (xhigh) | 48.5%,比 1.5 版本提升 13.8 个百分点 |
Big Bench Audio 是单轮评测,涵盖语音、音乐、自然声音等类别的推理能力。Audio MultiChallenge 是多轮对话场景下的指令跟随评测,更贴近实际语音 Agent 的工作负载。
Zillow 在内部 adversarial 电话测试中报告,经过 prompt 调优后任务成功率从 69% 提升至 95%。
定价与 API 参数
音频 Token 定价:
| 类型 | 价格 |
|---|---|
| 音频输入 | $32 / M tokens |
| 音频输出 | $64 / M tokens |
| 缓存音频输入 | $0.40 / M tokens |
| 文本输入 | $4 / M tokens |
| 文本输出 | $24 / M tokens |
模型规格:上下文窗口 128K,最大输出 4,096 tokens,知识截止日期 2025 年 10 月 1 日。支持 text/audio/image 输入,text/audio 输出。Tier 1 速率限制:200 RPM / 1,000 RPD / 40,000 TPM。
配套模型:实时翻译与语音转录
同步发布的还有两款辅助模型:
gpt-realtime-translate — 流式语音翻译,支持 70+ 语种输入、13 种目标语言输出。按 $0.034/分钟计费。面向客服、旅行、跨语言协作等场景。
gpt-realtime-whisper — 流式语音转文字,边听边输出部分转录结果。按 $0.017/分钟计费。适用于直播字幕等实时场景。
实际应用场景
GPT-Realtime-2 的定位是生产环境语音 Agent。官方公告中提到的典型场景包括电话客服、技术支持、预订系统等需要多轮对话和工具调用的场景。模型支持 WebRTC、WebSocket 和 SIP 电话协议,可直接接入传统电话网络。
目前所有数据均来自 OpenAI 官方博客和开发者文档,暂无第三方独立评测。中文媒体报道均转引官方口径,措辞高度相似。


