OpenAI 突发 GPT-5.4,原生接管桌面,API 价格体系重构

803 词

OpenAI 放弃传统的单模型迭代节奏,在 GPT-5.3 发布仅两天后突袭发布 GPT-5.4,以“原生计算机操作”和“思维可视化”为核心,试图在深陷国防部合约争议(#QuitGPT)之际通过技术碾压重夺话语权。
iShot_2026-03-06_09.52.35

架构统一与原生 Agent 能力

GPT-5.4 不再是单一的语言模型,而是将推理(Thinking)、编程(Codex)和 Agent 工作流整合的统一体。

原生计算机操作:模型可直接解析屏幕截图并发送键盘/鼠标指令。在 OSWorld-Verified 基准测试中,GPT-5.4 达到了 75% 的成功率,不仅远超 GPT-5.2 的 47.3%,更首次超越了人类基准(72.4%)。

显性思维链 (Visible Thinking):引入“思维预览”机制,用户可实时查看模型的规划路径,并在其执行过程中随时打断或修正方向。

性能与基准数据

GDPval:在覆盖 44 种职业的 9 大行业任务中,GPT-5.4 的表现被认定为“优于或等于人类专家”的比例达到 83%(前代 GPT-5.2 为 70.9%)。

抗幻觉增强:官方报告称,相比 GPT-5.2,新模型在单一事实陈述上的错误率降低了 33%。

视觉增强:MMMU-Pro 测试得分 81.2%,并支持“原始分辨率”参数(最高 1024 万像素),不再强制压缩图像,对图表和 UI 细节的识别力大幅提升。

定价策略与长上下文陷阱

OpenAI 对 API 定价进行了显著调整,并引入了基于上下文长度的阶梯定价:

基础版 (GPT-5.4):输入 $2.50 / 1M tokens,输出 $15.00 / 1M tokens。

Pro 版 (GPT-5.4 Pro):输入 $30.00 / 1M tokens,输出 $180.00 / 1M tokens(针对科研级推理任务)。

长文本溢价:虽然支持 1,050,000 tokens 上下文,但当 Prompt 超过 272k tokens 时,输入价格翻倍,输出价格上涨 50%。