字节跳动于 2026 年 2 月初低调上线的新一代视频模型,核心突破在于原生音画同步与多镜头叙事的一致性,标志着 AI 视频生成从“生成一段素材”进化为“导演一场戏”。
1. 原生音画同构与多镜头叙事 (Native A/V & Multi-Shot)
Seedance 2.0 最显著的代际差异在于其架构不再是“视频生成+后配音”,而是双分支扩散变换器 (Dual-Branch DiT),实现了视频与音频的单次推理同步生成 (One-pass Generation)。
- 一致性突破:支持“多镜头叙事”,即用户输入一段故事脚本,模型自动生成包含多个分镜的连贯片段。实测显示,在不同景别(特写、中景、远景)切换中,角色面部特征、衣着细节及场景氛围维持高度统一,解决了此前行业普遍存在的“换个镜头就换张脸”的痛点。
- 音画同步:生成的视频自带原生音频,涵盖口型同步(Lip-sync)、环境音效及配乐,且音效能精确匹配画面动作(如金属撞击声)。
2. 「导演级」控制权 (Director-Level Control)
该模型集成了类似“虚拟导演”的逻辑,大幅降低了提示词门槛,同时提升了可控性。
- 自动运镜与分镜:模型具备自运镜 (Auto-Camera) 能力,能根据文本情节自动规划推拉摇移。
- 多模态参考 (Universal Reference):支持极高带宽的输入,允许同时输入最多 9 张参考图、3 段参考视频及 3 段参考音频。这意味着创作者可以用具体的视觉/听觉素材精准控制生成结果的风格、动作和节奏,而非仅依赖文字。
- 物理引擎升级:重构了物理规律理解模块,在处理高速运动、织物飘动、流体及光影反射(如眼镜反光稳定性)时,符合真实物理反馈,消除了大部分“AI 塑料感”。
目前已在字节跳动旗下即梦 (Jimeng) 平台上线,面向订阅用户开放。


