Google 突降 Gemini 3.1 Pro，核心推理指标 ARC-AGI-2 翻倍至 77.1%

2026-02-20

AI资讯

909 词

Google 将上周 Deep Think 模型的核心推理能力正式下放至 3.1 Pro，主攻复杂逻辑推演与智能体（Agentic）工作流，API 侧大幅优化自定义工具调用。

核心指标与 Benchmark 跃升

Gemini 3.1 Pro 定位为应对复杂任务的增强推理模型（距离 Gemini 3 系列发布仅隔三个月）。

流体智力突破：在专注测试抗记忆化推理的 ARC-AGI-2 榜单中得分 77.1%，较上一代 3 Pro 实现翻倍。
数理与代码能力：GPQA Diamond（研究生级科学推理）达 94.1%；SWE-Bench Verified（智能体编程）达 80.6%。
上下文与成本：原生维持 1M Token 上下文。API 均价下探（输入 $2/M Tokens，输出 $12/M Tokens），在长文本与多模态成本控制上直接对标竞品 Sonnet 4.6。

工程实现与工具链更新

代码级前端动效：支持直接通过文本生成复杂动态 SVG 动画。输出形式为纯代码而非像素，解决传统视频体积过大与缩放失真的工程痛点。
API 端点分流：新增 gemini-3.1-pro-preview-customtools 独立端点，专门强化开发者在 Bash 环境与自定义工具混合场景下的调用优先级。
底层多模态引擎底座：
视觉链路：图像生成与编辑由 Nano Banana 模型驱动，强化高保真文本渲染能力；视频生成基于 Veo 架构，支持首尾帧控制与端到端音频。
音频链路：高保真音乐与人声生成由 Lyria 3 支撑，强制物理注入 SynthID 水印。
Gemini Live 移动端交互：实装全双工（Full-duplex）实时对话，开放移动端摄像头（Camera Sharing）与屏幕共享（Screen Sharing），支持基于当前屏幕 UI 的实时多模态解析。

部署与分发路径

开发者侧：即日起通过 Google AI Studio、Vertex AI、Android Studio，以及全新智能体开发平台 Google Antigravity 开放预览。
消费端侧：已接入 Gemini App 与 Chrome 侧边栏；但高频调用额度与 NotebookLM 的独占访问权，被严格限制在 Google AI Pro / Ultra 付费订阅区间。