project
video-use - Browser Use 团队开源的 AI 视频剪辑 Agent
Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent,通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求,Agent 自动完成素...
video-use是什么
Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent,通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求,Agent 自动完成素材盘点、口癖清除、调色、字幕、动画叠加及自评估,最终输出成片。Video-use 核心创新在于让 LLM 通过音频转录文本(约 12KB),大幅降低 token 成本,专为口播、教程、访谈等结构化内容的高效自动化剪辑设计。
video-use的主要功能
-
口癖与死寂清除:自动识别并删除”嗯””啊”等填充词、长停顿及表现不佳的重复拍摄 take。
-
自动调色:内置 warm_cinematic(暖色电影感)、neutral_punch(中性增强)等预设,支持自定义 ffmpeg 滤镜链。
-
30ms 音频淡变:每个切点自动添加 30 毫秒淡入淡出,彻底消除切点爆音。
-
烧录字幕:默认”两词大写”短视频风格,支持长句自然、大字幕强调等自定义字体、颜色、位置。
-
动画叠加:调用 HyperFrames、Remotion、Manim、PIL+ffmpeg 等引擎生成 B-roll 和动画卡片,由独立子 Agent 并行生成。
-
自评估循环:渲染后自动检查切点跳帧、音频爆音、字幕遮挡、叠加层对齐等问题,最多修复 3 次。
-
会话记忆:每次剪辑决策追加到
project.md,下次接续工作时保留之前的偏好和策略。
微信关注回复“开源”,加入AI开源项目交流群
如何使用video-use
- 克隆仓库:在终端执行
git clone https://github.com/browser-use/video-use ~/Developer/video-use将项目代码下载到本地开发者目录。 - 安装依赖:进入项目目录后运行
uv sync或pip install -e .安装 Python 依赖,同时通过brew install ffmpeg安装必需的音视频处理工具。 - 配置 API Key:复制环境变量模板文件
cp .env.example .env,然后编辑.env文件填入 ElevenLabs API Key 用于音频转录服务。 - 注册 Skill:创建符号链接将 video-use 注册到 Agent 的 skills 目录,例如 Claude Code 用户执行
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use。 - 开始使用:进入存放原始视频素材的文件夹,启动你的编程 Agent,对它说 “edit these into a launch video” 可触发自动剪辑流程。
video-use的核心优势
-
对话式交互替代手动剪辑:通过自然语言描述需求即可驱动 Agent 完成全流程,无需掌握专业剪辑软件操作。
-
通用兼容不受 API 限制:不依赖官方开放接口,任何有网页版的视频工具都能被 AI 驱动操控。
-
极低 token 成本理解视频:通过音频转录文本(约 12KB)替代逐帧视觉分析,让 LLM 高效”阅读”而非”观看”视频。
-
自动化机械劳动:口癖清除、调色、字幕、动画叠加等重复性工作由 Agent 自动执行,人类仅需确认策略。
-
标准化输出可复现:剪辑规则固化在代码中,保证同类型内容输出风格一致,避免人工操作差异。
-
自评估质量保障:渲染后自动检查跳帧、爆音、遮挡等问题并修复,确保成片质量达标后才呈现给用户。
video-use的项目地址
- GitHub仓库:https://github.com/browser-use/video-use
video-use的同类竞品对比
| 维度 | video-use | OpenStoryline (FireRedTeam) |
|---|---|---|
| 开发团队 | Browser Use(海外) | 小红书 Super Intelligence 团队 / FireRedTeam(国内) |
| 开源协议 | MIT | Apache-2.0 |
| Stars | 13,749 | 2,817 |
| 核心定位 | 编程 Agent 对话式剪辑 raw footage | 意图驱动式视频创作,从素材搜索到成片 |
| 交互方式 | 命令行对话(Claude Code / Codex) | 自然语言对话 + Web 界面 + CLI |
| 内容来源 | 本地 raw footage(口播、访谈素材) | 支持本地素材 + 在线媒体搜索下载 |
| 智能脚本 | 基于音频转录文本理解内容 | 自动生成故事线、旁白、 Few-shot 风格迁移 |
| 动画/特效 | HyperFrames / Remotion / Manim / PIL | 内置 BGM 智能推荐、AI 转场生成、字体风格匹配 |
video-use的应用场景
-
技术博主口播剪辑:快速将多次录制的 raw footage 剪成连贯的发布视频,自动清除口癖和停顿。
-
教程制作团队:批量处理大量重复性剪辑任务,标准化字幕、调色和动画叠加流程。
-
产品发布视频:将多段素材按策略自动拼接,统一视觉风格并生成配套 B-roll 动画。
-
访谈/播客后期:自动识别最佳 take、清除冗余内容,输出带字幕和淡变处理的成片。
-
内容创作者标准化工作流:将剪辑流程从手动操作转为策略确认,释放时间聚焦内容创作本身。