video-use - Browser Use 团队开源的 AI 视频剪辑 Agent - AiBoss

video-use是什么

Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent，通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求，Agent 自动完成素材盘点、口癖清除、调色、字幕、动画叠加及自评估，最终输出成片。Video-use 核心创新在于让 LLM 通过音频转录文本（约 12KB），大幅降低 token 成本，专为口播、教程、访谈等结构化内容的高效自动化剪辑设计。

video-use的主要功能

口癖与死寂清除：自动识别并删除”嗯””啊”等填充词、长停顿及表现不佳的重复拍摄 take。
自动调色：内置 warm_cinematic（暖色电影感）、neutral_punch（中性增强）等预设，支持自定义 ffmpeg 滤镜链。
30ms 音频淡变：每个切点自动添加 30 毫秒淡入淡出，彻底消除切点爆音。
烧录字幕：默认”两词大写”短视频风格，支持长句自然、大字幕强调等自定义字体、颜色、位置。
动画叠加：调用 HyperFrames、Remotion、Manim、PIL+ffmpeg 等引擎生成 B-roll 和动画卡片，由独立子 Agent 并行生成。
自评估循环：渲染后自动检查切点跳帧、音频爆音、字幕遮挡、叠加层对齐等问题，最多修复 3 次。
会话记忆：每次剪辑决策追加到 project.md，下次接续工作时保留之前的偏好和策略。

微信关注回复“开源”，加入AI开源项目交流群

如何使用video-use

克隆仓库：在终端执行 git clone https://github.com/browser-use/video-use ~/Developer/video-use 将项目代码下载到本地开发者目录。
安装依赖：进入项目目录后运行 uv sync 或 pip install -e . 安装 Python 依赖，同时通过 brew install ffmpeg 安装必需的音视频处理工具。
配置 API Key：复制环境变量模板文件 cp .env.example .env，然后编辑 .env 文件填入 ElevenLabs API Key 用于音频转录服务。
注册 Skill：创建符号链接将 video-use 注册到 Agent 的 skills 目录，例如 Claude Code 用户执行 ln -sfn ~/Developer/video-use ~/.claude/skills/video-use。
开始使用：进入存放原始视频素材的文件夹，启动你的编程 Agent，对它说 “edit these into a launch video” 可触发自动剪辑流程。

video-use的核心优势

对话式交互替代手动剪辑：通过自然语言描述需求即可驱动 Agent 完成全流程，无需掌握专业剪辑软件操作。
通用兼容不受 API 限制：不依赖官方开放接口，任何有网页版的视频工具都能被 AI 驱动操控。
极低 token 成本理解视频：通过音频转录文本（约 12KB）替代逐帧视觉分析，让 LLM 高效”阅读”而非”观看”视频。
自动化机械劳动：口癖清除、调色、字幕、动画叠加等重复性工作由 Agent 自动执行，人类仅需确认策略。
标准化输出可复现：剪辑规则固化在代码中，保证同类型内容输出风格一致，避免人工操作差异。
自评估质量保障：渲染后自动检查跳帧、爆音、遮挡等问题并修复，确保成片质量达标后才呈现给用户。

video-use的项目地址

GitHub仓库：https://github.com/browser-use/video-use

video-use的同类竞品对比

维度	video-use	OpenStoryline (FireRedTeam)
开发团队	Browser Use（海外）	小红书 Super Intelligence 团队 / FireRedTeam（国内）
开源协议	MIT	Apache-2.0
Stars	13,749	2,817
核心定位	编程 Agent 对话式剪辑 raw footage	意图驱动式视频创作，从素材搜索到成片
交互方式	命令行对话（Claude Code / Codex）	自然语言对话 + Web 界面 + CLI
内容来源	本地 raw footage（口播、访谈素材）	支持本地素材 + 在线媒体搜索下载
智能脚本	基于音频转录文本理解内容	自动生成故事线、旁白、 Few-shot 风格迁移
动画/特效	HyperFrames / Remotion / Manim / PIL	内置 BGM 智能推荐、AI 转场生成、字体风格匹配

video-use的应用场景

技术博主口播剪辑：快速将多次录制的 raw footage 剪成连贯的发布视频，自动清除口癖和停顿。
教程制作团队：批量处理大量重复性剪辑任务，标准化字幕、调色和动画叠加流程。
产品发布视频：将多段素材按策略自动拼接，统一视觉风格并生成配套 B-roll 动画。
访谈/播客后期：自动识别最佳 take、清除冗余内容，输出带字幕和淡变处理的成片。
内容创作者标准化工作流：将剪辑流程从手动操作转为策略确认，释放时间聚焦内容创作本身。

video-use是什么

video-use的主要功能

口癖与死寂清除：自动识别并删除”嗯””啊”等填充词、长停顿及表现不佳的重复拍摄 take。

自动调色：内置 warm_cinematic（暖色电影感）、neutral_punch（中性增强）等预设，支持自定义 ffmpeg 滤镜链。

30ms 音频淡变：每个切点自动添加 30 毫秒淡入淡出，彻底消除切点爆音。

烧录字幕：默认”两词大写”短视频风格，支持长句自然、大字幕强调等自定义字体、颜色、位置。

动画叠加：调用 HyperFrames、Remotion、Manim、PIL+ffmpeg 等引擎生成 B-roll 和动画卡片，由独立子 Agent 并行生成。

自评估循环：渲染后自动检查切点跳帧、音频爆音、字幕遮挡、叠加层对齐等问题，最多修复 3 次。

会话记忆：每次剪辑决策追加到 project.md，下次接续工作时保留之前的偏好和策略。

微信关注回复“开源”，加入AI开源项目交流群

如何使用video-use

克隆仓库：在终端执行 git clone https://github.com/browser-use/video-use ~/Developer/video-use 将项目代码下载到本地开发者目录。

安装依赖：进入项目目录后运行 uv sync 或 pip install -e . 安装 Python 依赖，同时通过 brew install ffmpeg 安装必需的音视频处理工具。

配置 API Key：复制环境变量模板文件 cp .env.example .env，然后编辑 .env 文件填入 ElevenLabs API Key 用于音频转录服务。

注册 Skill：创建符号链接将 video-use 注册到 Agent 的 skills 目录，例如 Claude Code 用户执行 ln -sfn ~/Developer/video-use ~/.claude/skills/video-use。

开始使用：进入存放原始视频素材的文件夹，启动你的编程 Agent，对它说 “edit these into a launch video” 可触发自动剪辑流程。

video-use的核心优势

对话式交互替代手动剪辑：通过自然语言描述需求即可驱动 Agent 完成全流程，无需掌握专业剪辑软件操作。

通用兼容不受 API 限制：不依赖官方开放接口，任何有网页版的视频工具都能被 AI 驱动操控。

极低 token 成本理解视频：通过音频转录文本（约 12KB）替代逐帧视觉分析，让 LLM 高效”阅读”而非”观看”视频。

自动化机械劳动：口癖清除、调色、字幕、动画叠加等重复性工作由 Agent 自动执行，人类仅需确认策略。

标准化输出可复现：剪辑规则固化在代码中，保证同类型内容输出风格一致，避免人工操作差异。

自评估质量保障：渲染后自动检查跳帧、爆音、遮挡等问题并修复，确保成片质量达标后才呈现给用户。

video-use的同类竞品对比

维度

video-use

OpenStoryline (FireRedTeam)

开发团队

Browser Use（海外）

小红书 Super Intelligence 团队 / FireRedTeam（国内）

开源协议

MIT

Apache-2.0

Stars

13,749

2,817

核心定位

编程 Agent 对话式剪辑 raw footage

意图驱动式视频创作，从素材搜索到成片

交互方式

命令行对话（Claude Code / Codex）

自然语言对话 + Web 界面 + CLI

内容来源

本地 raw footage（口播、访谈素材）

支持本地素材 + 在线媒体搜索下载

智能脚本

基于音频转录文本理解内容

自动生成故事线、旁白、 Few-shot 风格迁移

动画/特效

HyperFrames / Remotion / Manim / PIL

内置 BGM 智能推荐、AI 转场生成、字体风格匹配

video-use的应用场景

技术博主口播剪辑：快速将多次录制的 raw footage 剪成连贯的发布视频，自动清除口癖和停顿。

教程制作团队：批量处理大量重复性剪辑任务，标准化字幕、调色和动画叠加流程。

产品发布视频：将多段素材按策略自动拼接，统一视觉风格并生成配套 B-roll 动画。

访谈/播客后期：自动识别最佳 take、清除冗余内容，输出带字幕和淡变处理的成片。

内容创作者标准化工作流：将剪辑流程从手动操作转为策略确认，释放时间聚焦内容创作本身。

全部分类

video-use是什么

video-use的主要功能

如何使用video-use

video-use的核心优势

video-use的项目地址

video-use的同类竞品对比

video-use的应用场景

video-use是什么

video-use的主要功能

如何使用video-use

video-use的核心优势

video-use的项目地址

video-use的同类竞品对比

video-use的应用场景