谷歌开源 Gemma 4 多模态模型系列，最高支持 256K 上下文与端侧原生音频

2026-04-03

AI资讯

797 词

谷歌推出横跨 2B 至 31B 的 Gemma 4 模型矩阵，通过强化原生多模态解析、MoE 架构及显式推理控制（Thinking Mode），确立了从端侧设备到云端服务器的开源 Agent 开发基准。

架构规格与核心参数

发布版本包含四个参数梯队，底层统一采用 Transformer 架构并全系拓展多模态支持：

Effective 2B (E2B) & Effective 4B (E4B)：专为端侧部署设计，引入单层嵌入（Per-Layer Embeddings, PLE）技术以最大化参数利用率。支持 128K 输入上下文。
26B A4B (MoE)：混合专家架构，总参数量 260 亿，单次前向传播仅激活约 38 亿至 40 亿参数。通过结合统一键值（Unified K/V）与比例旋转位置编码（p-RoPE）优化长文本内存占用，支持高达 256K 的上下文。
31B Dense：307 亿参数稠密模型，词表规模达 262,144。作为性能旗舰，同样具备 256K 上下文处理能力。

多模态解析与 Agent 原生机制

动态视觉分配：全系原生支持不固定比例的图像及视频输入（最长支持 60 秒 1 fps 的 MP4/WebM）。开放可配置的视觉 Token 预算，提供 70、140、280、560、1120 五档规格，允许开发者在算力与识别精度间进行硬控。
显式思维模式 (Thinking Mode)：非单纯微调，模型底层内置了控制流。通过向系统提示词中注入 <|think|> 触发符，可强制开启内部逻辑推导（返回 <|channel>thought...\n 结构），直接干预模型的推理计算链。
Agent 工程优化：放弃了对外部工具调用的妥协性设计，原生内置函数调用（Function Calling）与强结构化 JSON 输出能力，直接对齐离线 AI 代码助手及自主智能体的工作流需求。
Hugging Face (google/gemma-4-E2B)