OpenAI 放弃传统的单模型迭代节奏,在 GPT-5.3 发布仅两天后突袭发布 GPT-5.4,以“原生计算机操作”和“思维可视化”为核心,试图在深陷国防部合约争议(#QuitGPT)之际通过技术碾压重夺话语权。
架构统一与原生 Agent 能力
GPT-5.4 不再是单一的语言模型,而是将推理(Thinking)、编程(Codex)和 Agent 工作流整合的统一体。
原生计算机操作:模型可直接解析屏幕截图并发送键盘/鼠标指令。在 OSWorld-Verified 基准测试中,GPT-5.4 达到了 75% 的成功率,不仅远超 GPT-5.2 的 47.3%,更首次超越了人类基准(72.4%)。
显性思维链 (Visible Thinking):引入“思维预览”机制,用户可实时查看模型的规划路径,并在其执行过程中随时打断或修正方向。
性能与基准数据
GDPval:在覆盖 44 种职业的 9 大行业任务中,GPT-5.4 的表现被认定为“优于或等于人类专家”的比例达到 83%(前代 GPT-5.2 为 70.9%)。
抗幻觉增强:官方报告称,相比 GPT-5.2,新模型在单一事实陈述上的错误率降低了 33%。
视觉增强:MMMU-Pro 测试得分 81.2%,并支持“原始分辨率”参数(最高 1024 万像素),不再强制压缩图像,对图表和 UI 细节的识别力大幅提升。
定价策略与长上下文陷阱
OpenAI 对 API 定价进行了显著调整,并引入了基于上下文长度的阶梯定价:
基础版 (GPT-5.4):输入 $2.50 / 1M tokens,输出 $15.00 / 1M tokens。
Pro 版 (GPT-5.4 Pro):输入 $30.00 / 1M tokens,输出 $180.00 / 1M tokens(针对科研级推理任务)。
长文本溢价:虽然支持 1,050,000 tokens 上下文,但当 Prompt 超过 272k tokens 时,输入价格翻倍,输出价格上涨 50%。


