project
CutClaw - 湾大联合北交大开源的 AI 视频剪辑工具
CutClaw是大湾区大学GVC实验室与北交大团队开源的AI视频剪辑工具。工具采用多智能体架构,通过'音乐驱动'方式将几小时长视频自动剪辑成节奏精准的短片。
CutClaw是什么
CutClaw是大湾区大学GVC实验室与北交大团队开源的AI视频剪辑工具。工具采用多智能体架构,通过”音乐驱动”方式将几小时长视频自动剪辑成节奏精准的短片。系统先解析音乐节拍与结构,再结合用户文字指令,由AI编剧规划镜头、剪辑师选取片段、审阅者质检,最终渲染出适配多平台的电影感视频。CutClaw支持一键素材解构与缓存复用,适合旅拍、营销等场景。
CutClaw的主要功能
- 音乐驱动剪辑:分析音乐节拍、重拍、能量曲线,将视觉叙事严格对齐音乐结构,实现真正的音画同步。
- 多智能体协作:模拟专业后期流程:AI 编剧(规划故事节奏与镜头)、AI 剪辑师(选取片段时点)、AI 审阅者(质检镜头长度与美学),形成闭环优化。
- 指令化控制:仅需一句文字描述(如”展现主角的疯狂”),系统自动理解风格并执行,无需手动拉时间轴。
- 智能素材解构:一键将数小时长视频拆解为结构化镜头库,标注摄影手法、人物情绪、叙事节点;音频提取节拍与能量特征,转为可搜索资产。
- 内容感知裁剪:自动识别画面核心主体,智能调整画面比例(9:16、16:9 等),适配抖音、小红书等多平台发布需求。
- 缓存加速:首次处理后缓存解构结果,后续同素材再剪辑时直接复用,大幅提升效率。
如何使用CutClaw
- 安装环境:从 GitHub 克隆代码仓库后,创建 Python 3.12 虚拟环境并安装项目依赖。
- 准备素材:在
resource/目录下分别放入视频、音频文件,可选放入字幕文件跳过语音识别。 - 启动运行:执行
streamlit run app.py启动可视化界面,或用命令行传入文件路径和指令参数直接运行。 - 配置模型:在配置文件中设置 LiteLLM 支持的 API 密钥,分别指定视频理解、音频解析和智能体推理所用的大模型。
- 获取成片:等待系统自动完成素材解构、镜头规划与剪辑渲染,下载适配各平台的多种比例视频文件。
CutClaw的关键信息和使用要求
- 项目背景:大湾区大学 GVC 实验室与北京交通大学联合开源的 AI 视频剪辑系统,基于多智能体架构实现音乐驱动的长视频自动剪辑。
- 核心机制:采用”编剧-剪辑师-审阅者”多智能体流水线,解构素材生成结构化字幕,依据音乐节拍(重拍/能量/音高)规划镜头,最终渲染成节奏精准的电影感短片。
- 技术依赖:通过 LiteLLM 网关调用大模型 API,视频理解推荐 Gemini-3/Qwen3.5,音频解析推荐 Gemini-3,智能体推理推荐 MiniMax-2.7/Kimi-2.5。
- 环境配置:Python 3.12、Conda 环境、强烈建议 GPU(CUDA)加速视频编解码。
- 文件准备:需将视频(.mp4/.mkv)和音频(.mp3/.wav)放入
resource/目录,可选 .srt 字幕跳过 ASR 节省时间和 API 费用。 - API 配置:必须配置各模型提供商的 API 密钥(OpenAI、Google、Moonshot 等),通过环境变量或配置文件设置。
- 运行方式:支持 Streamlit 可视化界面(
streamlit run app.py,访问 localhost:8501)或 CLI 命令行(python local_run.py传入路径和指令参数)。
CutClaw的核心优势
- 真·音乐驱动剪辑 区别于”先剪视频再配BGM”的传统工具,CutClaw 先深度解析音乐节拍、重拍与能量曲线,让剪辑决策完全由音乐结构驱动,实现真正的音画合一。
- 专业级多智能体协作 模拟影视后期全流程:AI 编剧规划叙事节奏,AI 剪辑师选取精准片段时间点,AI 审阅者质检(镜头长度、主角占比、美学评分),形成自我修正的闭环,而非单次生成。
- 长视频端到端处理 专为”几小时素材剪成几分钟短片”场景优化,一键解构海量素材为结构化可搜索资产,配合缓存机制实现”首剪慢、复剪快”的高效工作流。
- 零门槛指令控制 无需专业知识,一句自然语言描述(如”展现小丑的疯狂与优雅”)即可驱动风格化剪辑,自动理解情绪、节奏与视觉偏好。
- 平台原生适配 内容感知智能裁剪自动识别画面主体,一键生成 9:16(抖音)、16:9(B站)、1:1(小红书)等多比例版本,告别黑边与画面裁切失误。
CutClaw的项目地址
- GitHub仓库:https://github.com/GVCLab/CutClaw
- arXiv技术论文:https://arxiv.org/pdf/2603.29664
CutClaw的同类竞品对比
| 对比维度 | CutClaw | OpusClip | Mora |
|---|---|---|---|
| 核心定位 | 长视频电影感剪辑,音乐驱动叙事 | 长视频转短视频,病毒式片段提取 | 视频生成,多智能体场景协调 |
| 音乐同步方式 | 先解析音乐结构(节拍/能量/主副歌),再驱动视觉剪辑决策 | 支持音乐节拍对齐,侧重内容高光提取后配乐 | 侧重画面一致性,音乐同步非核心功能 |
| 长视频支持 | 数小时级(Hours-long)端到端处理 | 支持(播客/直播回放转短视频) | 支持长序列生成 |
| 架构特点 | 多智能体闭环(编剧+剪辑师+审阅者协作) | 单模型算法推荐 | 多智能体(与CutClaw架构相似) |
| 开源性 | 是 | 否 | 是 |
| 控制方式 | 自然语言指令控制风格 | 自动提取+手动调整片段 | 文本提示控制生成 |
| 适用场景 | 旅拍/Vlog电影感制作、影视二创 | 社交媒体营销、直播切片 | 创意视频生成、虚拟场景构建 |
CutClaw的应用场景
- 旅拍与 Vlog 制作:几小时的旅行素材配合背景音乐,快速生成节奏精准、踩点自然的电影感短片,大幅节省后期时间。
- 影视二创与混剪:基于特定音乐节奏重新剪辑电影或剧集片段,自动生成角色向、情感向或剧情向的混剪视频。
- 营销内容批量生产:根据同一批素材和不同音乐风格,快速生成多版本宣传片,适配品牌在不同平台的投放需求。
- 多平台短视频分发:自动裁剪生成 9:16(抖音/视频号)、16:9(B站)、1:1(小红书)等多种比例,一次制作全平台覆盖。
- 音乐 MV 与节奏向内容:用音乐结构解析能力,将画面严格对齐音乐节拍,制作强节奏感的可视化音乐内容或舞蹈视频。