火山引擎发布 Doubao-Seed-2.0-lite 新版本，实现全模态原生理解

2026-05-07

该版本是豆包大模型系列首款全模态理解模型，新增原生音频输入并实现跨模态联合推理，主要面向企业级场景的规模化部署。

跨模态联合推理与底层感知

模型于 5 月 6 日更新，原生支持文本、图像、音频、视频的统一理解。基于新增的音频输入能力，模型可执行“音画结合”的联合推理，例如：验证视频视听一致性、根据自然语言指令跨时间段提取线索、追踪事件发展并进行基于画面的多步逻辑推理。在底层感知数据上，该版本在 BabyVision、WorldVQA（细粒度感知）以及 ERQA（具身理解）等关键基准中达到 SOTA。

音频处理与 Benchmark 表现

不再局限于纯文本转录，新版本具备捕捉语音情绪变化、环境背景声与音乐细节的能力。支持 19 个语种精准语音转写，以及中英双语与其他 14 个语种的互译。根据公开评测集数据，该版本在语音识别、翻译等多项音频理解基准测试中优于 Gemini-3.1-Pro。

框架适配与 Agent 能力演进

随全模态能力升级的还有 Agent、Coding 与 GUI 表现。模型目前深度适配 OpenClaw 与 Hermes Agent 等框架，强化了深度搜索与 Skill（技能）动态调用机制。在产品定位上，Doubao-Seed-2.0-lite 维持均衡型特征，提供长上下文、多源信息融合与高保真结构化输出，核心目标为兼顾性能与成本的高频生产型任务。

最新文章

分类

归档

火山引擎发布 Doubao-Seed-2.0-lite 新版本，实现全模态原生理解

跨模态联合推理与底层感知

音频处理与 Benchmark 表现

框架适配与 Agent 能力演进

最新文章

分类

归档

跨模态联合推理与底层感知

音频处理与 Benchmark 表现

框架适配与 Agent 能力演进

搜索文章