该版本是豆包大模型系列首款全模态理解模型,新增原生音频输入并实现跨模态联合推理,主要面向企业级场景的规模化部署。
跨模态联合推理与底层感知
模型于 5 月 6 日更新,原生支持文本、图像、音频、视频的统一理解。基于新增的音频输入能力,模型可执行“音画结合”的联合推理,例如:验证视频视听一致性、根据自然语言指令跨时间段提取线索、追踪事件发展并进行基于画面的多步逻辑推理。在底层感知数据上,该版本在 BabyVision、WorldVQA(细粒度感知)以及 ERQA(具身理解)等关键基准中达到 SOTA。
音频处理与 Benchmark 表现
不再局限于纯文本转录,新版本具备捕捉语音情绪变化、环境背景声与音乐细节的能力。支持 19 个语种精准语音转写,以及中英双语与其他 14 个语种的互译。根据公开评测集数据,该版本在语音识别、翻译等多项音频理解基准测试中优于 Gemini-3.1-Pro。
框架适配与 Agent 能力演进
随全模态能力升级的还有 Agent、Coding 与 GUI 表现。模型目前深度适配 OpenClaw 与 Hermes Agent 等框架,强化了深度搜索与 Skill(技能)动态调用机制。在产品定位上,Doubao-Seed-2.0-lite 维持均衡型特征,提供长上下文、多源信息融合与高保真结构化输出,核心目标为兼顾性能与成本的高频生产型任务。


