字节跳动 Seedance 2.0 发布：AI 视频从「抽卡」迈向「工业化导演」

2026-02-09

AI资讯

749 词

字节跳动于 2026 年 2 月初低调上线的新一代视频模型，核心突破在于原生音画同步与多镜头叙事的一致性，标志着 AI 视频生成从“生成一段素材”进化为“导演一场戏”。

Seedance 2.0 最显著的代际差异在于其架构不再是“视频生成+后配音”，而是双分支扩散变换器 (Dual-Branch DiT)，实现了视频与音频的单次推理同步生成 (One-pass Generation)。

一致性突破：支持“多镜头叙事”，即用户输入一段故事脚本，模型自动生成包含多个分镜的连贯片段。实测显示，在不同景别（特写、中景、远景）切换中，角色面部特征、衣着细节及场景氛围维持高度统一，解决了此前行业普遍存在的“换个镜头就换张脸”的痛点。
音画同步：生成的视频自带原生音频，涵盖口型同步（Lip-sync）、环境音效及配乐，且音效能精确匹配画面动作（如金属撞击声）。

该模型集成了类似“虚拟导演”的逻辑，大幅降低了提示词门槛，同时提升了可控性。

自动运镜与分镜：模型具备自运镜 (Auto-Camera) 能力，能根据文本情节自动规划推拉摇移。
多模态参考 (Universal Reference)：支持极高带宽的输入，允许同时输入最多 9 张参考图、3 段参考视频及 3 段参考音频。这意味着创作者可以用具体的视觉/听觉素材精准控制生成结果的风格、动作和节奏，而非仅依赖文字。
物理引擎升级：重构了物理规律理解模块，在处理高速运动、织物飘动、流体及光影反射（如眼镜反光稳定性）时，符合真实物理反馈，消除了大部分“AI 塑料感”。

目前已在字节跳动旗下即梦 (Jimeng) 平台上线，面向订阅用户开放。