project
Bernini - 字节跳动开源的统一视频生成与编辑框架
Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion ...
Bernini是什么
Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生成。模型支持文本/图像生成视频、环境/视角/动作编辑、多参考引导植入等任务,推理代码与权重已全面开源。
Bernini的主要功能
-
文本/图像生成视频:支持从文本提示或参考图像直接生成视频,可处理单图、多元素组合图和多角度参考图。
-
视频编辑:支持环境编辑、视角编辑、焦点编辑和动作编辑。
-
参考引导编辑:通过主体参考图、材质参考图或风格参考图,将指定物体、纹理或风格精准融入视频。
-
图像/视频植入:将海报或视频填入画面中的屏幕、招牌等区域,跟随镜头移动并保持透视和时序稳定。
- 多元素组合:将多张互不相关的参考图组合成同一个视频角色,或基于同一场景关键帧生成连续平移镜头。
Bernini的技术原理
- 两阶段解耦架构:第一阶段由多模态大语言模型(MLLM)担任 Semantic Planner,在 ViT 嵌入空间中预测目标语义表示,负责理解文本指令、源视频和参考素材并规划目标内容。第二阶段由 Diffusion Transformer(DiT)担任 Renderer,在 VAE 潜在空间中执行流匹配去噪,将语义规划转化为高质量视频帧。编辑任务中还会注入源视频 VAE 特征保留非编辑区域细节。
- Segment-Aware 3D RoPE(SA-3D RoPE):当多个参考图、源视频、目标输出被串联为统一序列时,不同片段的 token 可能共享相同时空坐标。通过为每个视觉片段分配 segment 索引并整合到旋转位置编码中,使模型能区分不同来源的 token,同时保留原始时空建模特性。
- Chain-of-Thought 推理与三阶段训练:Planner 在潜在空间中进行思维链推理,增强复杂编辑场景下的语义保真度。训练分为三阶段:Planner 预训练、Renderer 预训练、Planner 与 Renderer 轻度联合训练,保留预训练优势又保持高效。
如何使用Bernini
-
克隆仓库:从 GitHub 克隆 Bernini 项目到本地。
-
安装依赖:运行 pip 安装 requirements.txt 中的依赖包。
-
下载模型:通过 HuggingFace 下载 Bernini-R-Diffusers 权重。
-
配置环境:确保使用 Python 3.11.2 和 CUDA 12.4+,推荐 Hopper 架构 GPU。
-
运行生成:使用 torchrun 执行多 GPU 推理脚本,指定配置文件和测试用例。
- 配置提示增强:设置 OpenAI 兼容的 API 端点以提升生成质量。
Bernini的核心优势
- 先理解再生成:MLLM 负责语义规划,DiT 负责视觉渲染,解决传统视频模型「听不懂人话」的痛点。
- 统一框架:单一架构覆盖生成、编辑、参考引导等多种任务,无需切换模型。
- 多参考输入:支持文本、图像、视频同时输入,通过 SA-3D RoPE 避免时空混淆。
- 细节保留:编辑时注入源视频 VAE 特征,保留非编辑区域细节,避免「一改全改」。
- 完全开源:推理代码与权重已开放,降低研究与开发门槛。
- 强泛化能力:在训练未明确覆盖的指令(如因果推理、动作变化)上仍表现出色。
Bernini的项目地址
- 项目官网:https://bernini-ai.github.io
- GitHub仓库:https://github.com/bytedance/Bernini
- HuggingFace模型库:https://huggingface.co/ByteDance/Bernini
- arXiv技术论文:https://arxiv.org/pdf/2605.22344
Bernini的同类竞品对比
| 对比维度 | Bernini | Runway Gen-4 |
|---|---|---|
| 开发方 | 字节跳动(开源) | Runway(闭源) |
| 核心架构 | MLLM Planner + DiT Renderer | 专有视频生成模型 |
| 任务覆盖 | 生成+编辑统一框架 | 生成+编辑 |
| 可控编辑 | 强(语义规划+多参考) | 较强 |
| 参考图支持 | 多元素/多角度/材质/风格 | 支持 |
| 开源程度 | 权重+代码开源 | 闭源 |
| 硬件要求 | 推荐 H100/H800(8卡视频) | 云端 API |
| 视频编辑 | 保留非编辑区域细节 | |
| 视觉质量 | 优秀(480p/16fps) | 顶尖 |
Bernini的应用场景
-
广告创意:模型能快速生成产品展示视频,支持产品图植入与风格调整。
-
电商展示:基于商品多角度参考图生成一致性高的动态展示视频。
-
影视预演:通过关键帧生成连续镜头,辅助虚拟漫游与场景构建。
-
二次创作:支持风格迁移、天气变换、动作编辑,降低视频再创作门槛。
-
虚拟拍摄:将海报或视频精准填入画面中的屏幕或招牌,实现虚实融合。