CutClaw - 湾大联合北交大开源的 AI 视频剪辑工具 - AiBoss

CutClaw是什么

CutClaw是大湾区大学GVC实验室与北交大团队开源的AI视频剪辑工具。工具采用多智能体架构，通过”音乐驱动”方式将几小时长视频自动剪辑成节奏精准的短片。系统先解析音乐节拍与结构，再结合用户文字指令，由AI编剧规划镜头、剪辑师选取片段、审阅者质检，最终渲染出适配多平台的电影感视频。CutClaw支持一键素材解构与缓存复用，适合旅拍、营销等场景。

CutClaw的主要功能

音乐驱动剪辑：分析音乐节拍、重拍、能量曲线，将视觉叙事严格对齐音乐结构，实现真正的音画同步。
多智能体协作：模拟专业后期流程：AI 编剧（规划故事节奏与镜头）、AI 剪辑师（选取片段时点）、AI 审阅者（质检镜头长度与美学），形成闭环优化。
指令化控制：仅需一句文字描述（如”展现主角的疯狂”），系统自动理解风格并执行，无需手动拉时间轴。
智能素材解构：一键将数小时长视频拆解为结构化镜头库，标注摄影手法、人物情绪、叙事节点；音频提取节拍与能量特征，转为可搜索资产。
内容感知裁剪：自动识别画面核心主体，智能调整画面比例（9:16、16:9 等），适配抖音、小红书等多平台发布需求。
缓存加速：首次处理后缓存解构结果，后续同素材再剪辑时直接复用，大幅提升效率。

如何使用CutClaw

安装环境：从 GitHub 克隆代码仓库后，创建 Python 3.12 虚拟环境并安装项目依赖。
准备素材：在 resource/ 目录下分别放入视频、音频文件，可选放入字幕文件跳过语音识别。
启动运行：执行 streamlit run app.py 启动可视化界面，或用命令行传入文件路径和指令参数直接运行。
配置模型：在配置文件中设置 LiteLLM 支持的 API 密钥，分别指定视频理解、音频解析和智能体推理所用的大模型。
获取成片：等待系统自动完成素材解构、镜头规划与剪辑渲染，下载适配各平台的多种比例视频文件。

CutClaw的关键信息和使用要求

项目背景：大湾区大学 GVC 实验室与北京交通大学联合开源的 AI 视频剪辑系统，基于多智能体架构实现音乐驱动的长视频自动剪辑。
核心机制：采用”编剧-剪辑师-审阅者”多智能体流水线，解构素材生成结构化字幕，依据音乐节拍（重拍/能量/音高）规划镜头，最终渲染成节奏精准的电影感短片。
技术依赖：通过 LiteLLM 网关调用大模型 API，视频理解推荐 Gemini-3/Qwen3.5，音频解析推荐 Gemini-3，智能体推理推荐 MiniMax-2.7/Kimi-2.5。
环境配置：Python 3.12、Conda 环境、强烈建议 GPU（CUDA）加速视频编解码。
文件准备：需将视频（.mp4/.mkv）和音频（.mp3/.wav）放入 resource/ 目录，可选 .srt 字幕跳过 ASR 节省时间和 API 费用。
API 配置：必须配置各模型提供商的 API 密钥（OpenAI、Google、Moonshot 等），通过环境变量或配置文件设置。
运行方式：支持 Streamlit 可视化界面（streamlit run app.py，访问 localhost:8501）或 CLI 命令行（python local_run.py 传入路径和指令参数）。

CutClaw的核心优势

真·音乐驱动剪辑 区别于”先剪视频再配BGM”的传统工具，CutClaw 先深度解析音乐节拍、重拍与能量曲线，让剪辑决策完全由音乐结构驱动，实现真正的音画合一。
专业级多智能体协作 模拟影视后期全流程：AI 编剧规划叙事节奏，AI 剪辑师选取精准片段时间点，AI 审阅者质检（镜头长度、主角占比、美学评分），形成自我修正的闭环，而非单次生成。
长视频端到端处理 专为”几小时素材剪成几分钟短片”场景优化，一键解构海量素材为结构化可搜索资产，配合缓存机制实现”首剪慢、复剪快”的高效工作流。
零门槛指令控制 无需专业知识，一句自然语言描述（如”展现小丑的疯狂与优雅”）即可驱动风格化剪辑，自动理解情绪、节奏与视觉偏好。
平台原生适配 内容感知智能裁剪自动识别画面主体，一键生成 9:16（抖音）、16:9（B站）、1:1（小红书）等多比例版本，告别黑边与画面裁切失误。

CutClaw的项目地址

GitHub仓库：https://github.com/GVCLab/CutClaw
arXiv技术论文：https://arxiv.org/pdf/2603.29664

CutClaw的同类竞品对比

对比维度	CutClaw	OpusClip	Mora
核心定位	长视频电影感剪辑，音乐驱动叙事	长视频转短视频，病毒式片段提取	视频生成，多智能体场景协调
音乐同步方式	先解析音乐结构（节拍/能量/主副歌），再驱动视觉剪辑决策	支持音乐节拍对齐，侧重内容高光提取后配乐	侧重画面一致性，音乐同步非核心功能
长视频支持	数小时级（Hours-long）端到端处理	支持（播客/直播回放转短视频）	支持长序列生成
架构特点	多智能体闭环（编剧+剪辑师+审阅者协作）	单模型算法推荐	多智能体（与CutClaw架构相似）
开源性	是	否	是
控制方式	自然语言指令控制风格	自动提取+手动调整片段	文本提示控制生成
适用场景	旅拍/Vlog电影感制作、影视二创	社交媒体营销、直播切片	创意视频生成、虚拟场景构建

CutClaw的应用场景

旅拍与 Vlog 制作：几小时的旅行素材配合背景音乐，快速生成节奏精准、踩点自然的电影感短片，大幅节省后期时间。
影视二创与混剪：基于特定音乐节奏重新剪辑电影或剧集片段，自动生成角色向、情感向或剧情向的混剪视频。
营销内容批量生产：根据同一批素材和不同音乐风格，快速生成多版本宣传片，适配品牌在不同平台的投放需求。
多平台短视频分发：自动裁剪生成 9:16（抖音/视频号）、16:9（B站）、1:1（小红书）等多种比例，一次制作全平台覆盖。
音乐 MV 与节奏向内容：用音乐结构解析能力，将画面严格对齐音乐节拍，制作强节奏感的可视化音乐内容或舞蹈视频。

CutClaw是什么

CutClaw的主要功能

音乐驱动剪辑：分析音乐节拍、重拍、能量曲线，将视觉叙事严格对齐音乐结构，实现真正的音画同步。

多智能体协作：模拟专业后期流程：AI 编剧（规划故事节奏与镜头）、AI 剪辑师（选取片段时点）、AI 审阅者（质检镜头长度与美学），形成闭环优化。

指令化控制：仅需一句文字描述（如”展现主角的疯狂”），系统自动理解风格并执行，无需手动拉时间轴。

智能素材解构：一键将数小时长视频拆解为结构化镜头库，标注摄影手法、人物情绪、叙事节点；音频提取节拍与能量特征，转为可搜索资产。

内容感知裁剪：自动识别画面核心主体，智能调整画面比例（9:16、16:9 等），适配抖音、小红书等多平台发布需求。

缓存加速：首次处理后缓存解构结果，后续同素材再剪辑时直接复用，大幅提升效率。

如何使用CutClaw

安装环境：从 GitHub 克隆代码仓库后，创建 Python 3.12 虚拟环境并安装项目依赖。

准备素材：在 resource/ 目录下分别放入视频、音频文件，可选放入字幕文件跳过语音识别。

启动运行：执行 streamlit run app.py 启动可视化界面，或用命令行传入文件路径和指令参数直接运行。

配置模型：在配置文件中设置 LiteLLM 支持的 API 密钥，分别指定视频理解、音频解析和智能体推理所用的大模型。

获取成片：等待系统自动完成素材解构、镜头规划与剪辑渲染，下载适配各平台的多种比例视频文件。

CutClaw的关键信息和使用要求

项目背景：大湾区大学 GVC 实验室与北京交通大学联合开源的 AI 视频剪辑系统，基于多智能体架构实现音乐驱动的长视频自动剪辑。

核心机制：采用”编剧-剪辑师-审阅者”多智能体流水线，解构素材生成结构化字幕，依据音乐节拍（重拍/能量/音高）规划镜头，最终渲染成节奏精准的电影感短片。

技术依赖：通过 LiteLLM 网关调用大模型 API，视频理解推荐 Gemini-3/Qwen3.5，音频解析推荐 Gemini-3，智能体推理推荐 MiniMax-2.7/Kimi-2.5。

环境配置：Python 3.12、Conda 环境、强烈建议 GPU（CUDA）加速视频编解码。

文件准备：需将视频（.mp4/.mkv）和音频（.mp3/.wav）放入 resource/ 目录，可选 .srt 字幕跳过 ASR 节省时间和 API 费用。

API 配置：必须配置各模型提供商的 API 密钥（OpenAI、Google、Moonshot 等），通过环境变量或配置文件设置。

运行方式：支持 Streamlit 可视化界面（streamlit run app.py，访问 localhost:8501）或 CLI 命令行（python local_run.py 传入路径和指令参数）。

CutClaw的核心优势

真·音乐驱动剪辑 区别于”先剪视频再配BGM”的传统工具，CutClaw 先深度解析音乐节拍、重拍与能量曲线，让剪辑决策完全由音乐结构驱动，实现真正的音画合一。

专业级多智能体协作 模拟影视后期全流程：AI 编剧规划叙事节奏，AI 剪辑师选取精准片段时间点，AI 审阅者质检（镜头长度、主角占比、美学评分），形成自我修正的闭环，而非单次生成。

长视频端到端处理 专为”几小时素材剪成几分钟短片”场景优化，一键解构海量素材为结构化可搜索资产，配合缓存机制实现”首剪慢、复剪快”的高效工作流。

零门槛指令控制 无需专业知识，一句自然语言描述（如”展现小丑的疯狂与优雅”）即可驱动风格化剪辑，自动理解情绪、节奏与视觉偏好。

平台原生适配 内容感知智能裁剪自动识别画面主体，一键生成 9:16（抖音）、16:9（B站）、1:1（小红书）等多比例版本，告别黑边与画面裁切失误。

CutClaw的同类竞品对比

对比维度

CutClaw

OpusClip

Mora

核心定位

长视频电影感剪辑，音乐驱动叙事

长视频转短视频，病毒式片段提取

视频生成，多智能体场景协调

音乐同步方式

先解析音乐结构（节拍/能量/主副歌），再驱动视觉剪辑决策

支持音乐节拍对齐，侧重内容高光提取后配乐

侧重画面一致性，音乐同步非核心功能

长视频支持

数小时级（Hours-long）端到端处理

支持（播客/直播回放转短视频）

支持长序列生成

架构特点

多智能体闭环（编剧+剪辑师+审阅者协作）

单模型算法推荐

多智能体（与CutClaw架构相似）

开源性

是

否

是

控制方式

自然语言指令控制风格

自动提取+手动调整片段

文本提示控制生成

适用场景

旅拍/Vlog电影感制作、影视二创

社交媒体营销、直播切片

创意视频生成、虚拟场景构建

CutClaw的应用场景

旅拍与 Vlog 制作：几小时的旅行素材配合背景音乐，快速生成节奏精准、踩点自然的电影感短片，大幅节省后期时间。

影视二创与混剪：基于特定音乐节奏重新剪辑电影或剧集片段，自动生成角色向、情感向或剧情向的混剪视频。

营销内容批量生产：根据同一批素材和不同音乐风格，快速生成多版本宣传片，适配品牌在不同平台的投放需求。

多平台短视频分发：自动裁剪生成 9:16（抖音/视频号）、16:9（B站）、1:1（小红书）等多种比例，一次制作全平台覆盖。

音乐 MV 与节奏向内容：用音乐结构解析能力，将画面严格对齐音乐节拍，制作强节奏感的可视化音乐内容或舞蹈视频。

すべてのカテゴリ

CutClaw是什么

CutClaw的主要功能

如何使用CutClaw

CutClaw的关键信息和使用要求

CutClaw的核心优势

CutClaw的项目地址

CutClaw的同类竞品对比

CutClaw的应用场景

CutClaw是什么

CutClaw的主要功能

如何使用CutClaw

CutClaw的关键信息和使用要求

CutClaw的核心优势

CutClaw的项目地址

CutClaw的同类竞品对比

CutClaw的应用场景