字节跳动 Seedance 2.0 发布:AI 视频从「抽卡」迈向「工业化导演」

749 词

字节跳动于 2026 年 2 月初低调上线的新一代视频模型,核心突破在于原生音画同步多镜头叙事的一致性,标志着 AI 视频生成从“生成一段素材”进化为“导演一场戏”。
iShot_2026-02-09_19.24.05

1. 原生音画同构与多镜头叙事 (Native A/V & Multi-Shot)

Seedance 2.0 最显著的代际差异在于其架构不再是“视频生成+后配音”,而是双分支扩散变换器 (Dual-Branch DiT),实现了视频与音频的单次推理同步生成 (One-pass Generation)

  • 一致性突破:支持“多镜头叙事”,即用户输入一段故事脚本,模型自动生成包含多个分镜的连贯片段。实测显示,在不同景别(特写、中景、远景)切换中,角色面部特征、衣着细节及场景氛围维持高度统一,解决了此前行业普遍存在的“换个镜头就换张脸”的痛点。
  • 音画同步:生成的视频自带原生音频,涵盖口型同步(Lip-sync)、环境音效及配乐,且音效能精确匹配画面动作(如金属撞击声)。

2. 「导演级」控制权 (Director-Level Control)

该模型集成了类似“虚拟导演”的逻辑,大幅降低了提示词门槛,同时提升了可控性。

  • 自动运镜与分镜:模型具备自运镜 (Auto-Camera) 能力,能根据文本情节自动规划推拉摇移。
  • 多模态参考 (Universal Reference):支持极高带宽的输入,允许同时输入最多 9 张参考图3 段参考视频3 段参考音频。这意味着创作者可以用具体的视觉/听觉素材精准控制生成结果的风格、动作和节奏,而非仅依赖文字。
  • 物理引擎升级:重构了物理规律理解模块,在处理高速运动、织物飘动、流体及光影反射(如眼镜反光稳定性)时,符合真实物理反馈,消除了大部分“AI 塑料感”。

目前已在字节跳动旗下即梦 (Jimeng) 平台上线,面向订阅用户开放。