谷歌推出横跨 2B 至 31B 的 Gemma 4 模型矩阵,通过强化原生多模态解析、MoE 架构及显式推理控制(Thinking Mode),确立了从端侧设备到云端服务器的开源 Agent 开发基准。
架构规格与核心参数
发布版本包含四个参数梯队,底层统一采用 Transformer 架构并全系拓展多模态支持:
- Effective 2B (E2B) & Effective 4B (E4B):专为端侧部署设计,引入单层嵌入(Per-Layer Embeddings, PLE)技术以最大化参数利用率。支持 128K 输入上下文。
- 26B A4B (MoE):混合专家架构,总参数量 260 亿,单次前向传播仅激活约 38 亿至 40 亿参数。通过结合统一键值(Unified K/V)与比例旋转位置编码(p-RoPE)优化长文本内存占用,支持高达 256K 的上下文。
- 31B Dense:307 亿参数稠密模型,词表规模达 262,144。作为性能旗舰,同样具备 256K 上下文处理能力。
多模态解析与 Agent 原生机制
动态视觉分配:全系原生支持不固定比例的图像及视频输入(最长支持 60 秒 1 fps 的 MP4/WebM)。开放可配置的视觉 Token 预算,提供 70、140、280、560、1120 五档规格,允许开发者在算力与识别精度间进行硬控。
显式思维模式 (Thinking Mode):非单纯微调,模型底层内置了控制流。通过向系统提示词中注入
<|think|>触发符,可强制开启内部逻辑推导(返回<|channel>thought...\n结构),直接干预模型的推理计算链。Agent 工程优化:放弃了对外部工具调用的妥协性设计,原生内置函数调用(Function Calling)与强结构化 JSON 输出能力,直接对齐离线 AI 代码助手及自主智能体的工作流需求。


