Google 在 I/O 2026(5 月 19 日)发布 Gemini 3.5 Flash,定位为”将前沿智能与行动能力结合”的首个模型,全面 GA 上线。
定位:首个”前沿智能 + 行动能力”结合的模型
Gemini 3.5 Flash 在 Google I/O 2026 上发布,同日全球 GA。Google 将其定位为系列中的第一个模型——“将前沿智能与行动能力结合”(frontier intelligence with action),核心场景是智能体(agent)工作流和编码任务。
该模型已集成到 Google 全线产品:Gemini App、Google Search 的 AI 模式、Antigravity、Gemini API、AI Studio、Gemini Enterprise Agent Platform,以及作为 Gemini Spark 个人智能体的默认底层模型。Gemini 3.5 Pro 计划下月发布。
基准测试:全面超越 Gemini 3 Flash
以下为 Gemini 3.5 Flash 与 3 Flash 的官方对比数据(来源:DeepMind Model Card):
| 基准 | 3.5 Flash | 3 Flash | 提升 |
|---|---|---|---|
| Terminal-bench 2.1 | 76.2% | 58.0% | +18.2pp |
| SWE-Bench Pro | 55.1% | 49.6% | +5.5pp |
| MCP Atlas | 83.6% | 62.0% | +21.6pp |
| OSWorld-Verified | 78.4% | 65.1% | +13.3pp |
| Finance Agent v2 | 57.9% | 42.6% | +15.3pp |
| CharXiv Reasoning | 84.2% | 80.3% | +3.9pp |
| MMMU-Pro | 83.6% | 81.2% | +2.4pp |
| ARC-AGI-2 | 72.1% | 33.6% | +38.5pp |
| MRCR v2 (128K) | 77.3% | 67.2% | +10.1pp |
| MRCR v2 (1M) | 26.6% | 22.1% | +4.5pp |
增幅最大的三项:ARC-AGI-2(+38.5pp)、MCP Atlas(+21.6pp)、Terminal-bench 2.1(+18.2pp),均指向智能体执行能力的显著提升。
官方还称其输出速度”比同类前沿模型快 4 倍”,在优化版 Antigravity 2.0 中可达”12 倍”。Google 内部日均处理 token 量已超过三万亿。
以上数据均为 Google 官方口径,暂无第三方独立复现。
技术规格:1M 上下文,可控思考深度
- 上下文窗口:最高 1M token 输入,64K token 输出
- 输入模态:文本、图像、音频、视频文件
- 输出模态:文本
- 思考层级:支持动态调节思考深度,以平衡质量、成本和延迟
ARC-AGI-2 的大幅提升(33.6% → 72.1%)和 1M 上下文的持续理解能力(MRCR 1M 从 22.1% 提升到 26.6%)是本次升级中值得关注的两个技术信号。
定价:为标准前沿模型的 3 倍,但低于同类前沿模型
Gemini 3.5 Flash 定价(标准层):
| 输入($/M tokens) | 输出($/M tokens) | |
|---|---|---|
| 标准 | $1.50 | $9.00 |
| 延迟处理(Deferred) | $0.75 | $4.50 |
| 高优先级路由 | $2.70 | $16.20 |
作为对比,Gemini 3 Flash 的标准层价格为 $0.50/$3.00 —— 3.5 Flash 的定价恰好是前代的 3 倍。
Google 官方称其”以低于同类前沿模型一半的成本提供前沿级能力”。官方博客还给出了一个案例:若头部企业将 80% 工作负载迁移至 3.5 Flash,年节省可超 10 亿美元。
企业部署案例
Google 在发布会上列出了多个早期合作伙伴的部署场景(均为官方口径):
- Shopify:并行子智能体,用于商家增长预测
- Macquarie Bank:在 100+ 页文档上进行推理,用于客户入驻流程
- Salesforce:与 Agentforce 集成,支持多轮工具调用
- Ramp:对复杂发票进行 OCR,结合历史数据推理
- Xero:自主执行多周工作流,如 1099 税务表单处理
- Databricks:实时数据监控和诊断


