project
Keye-VL-2.0-30B-A3B - 快手开源的自研多模态大模型
Keye-VL-2.0-30B-A3B是快手开源的自研多模态大模型 ,为 30B 级主力基座。模型首次将 DSA 稀疏注意力引入多模态场景,支持 256K 超长上下文,实现小时级视频...
Keye-VL-2.0-30B-A3B是什么
Keye-VL-2.0-30B-A3B是快手开源的自研多模态大模型 ,为 30B 级主力基座。模型首次将 DSA 稀疏注意力引入多模态场景,支持 256K 超长上下文,实现小时级视频的毫秒级时序推理。在 TimeLens 基准测试中超越 Gemini-2.5-Pro 和 Gemini 3 Flash,首次解锁 Code、Tool、Search 等 Agent 协作机制,让模型从观察者进化为行动者。
Keye-VL-2.0-30B-A3B的主要功能
-
超长视频理解:支持 256K 超长上下文,可处理小时级视频序列并实现几乎无损的深度时序推理。
-
时序因果推理:在连续时序流动中捕捉画面背后的因果链条,实现从”看见画面”到”读懂逻辑”的跨越。
-
毫秒级帧级定位:具备手术刀般的细粒度解析能力,可对复杂工艺流程或游戏高光进行精确到时间戳的拆解。
-
跨模态深度融合:同时处理视觉、音频与文本信息,实现多模态间的协同理解与深度语义对齐。
-
Agent 协作执行:首次解锁代码生成、工具调用与搜索等复杂场景的系统级自主协作与任务执行能力。
-
高噪信息提纯:在复杂场景下精准捕捉关键帧并理清动态规律,有效过滤冗余信息并保留核心内容。
Keye-VL-2.0-30B-A3B的技术原理
- DSA 稀疏注意力机制:首次将 DeepSeek Sparse Attention 引入多模态理解,结合稀疏注意力与针对性特征聚合破解超长视觉上下文的指数级算力瓶颈。
- 超长上下文架构:采用 256K Token 级端到端架构,实现长视频序列的连贯深度感知而无需分段截断处理。
- 细粒度时序理解引擎:通过帧级动作边界识别、动态视觉解析与音画协同建模,实现毫秒级精确时序定位与因果推断。
- Agent 协作框架:集成 Code Interpreter、Tool Use 与 Search 能力,构建从多模态感知到逻辑推理再到工具执行的闭环决策系统。
- 统一多模态特征融合:将视觉、音频与文本特征映射至共享表征空间,实现跨模态信息的深度语义对齐与联合推理。
如何使用Keye-VL-2.0-30B-A3B
-
获取模型:可通过 GitHub、Hugging Face 或 ModelScope 下载完全开源的模型权重与部署文档。
-
硬件准备:需要配备 H800 或同等算力显卡,并使用至少两张 GPU 进行多卡张量并行推理。
-
Docker 快速部署:直接拉取官方 Docker 镜像并运行,即可一键完成环境配置与模型加载。
-
源码安装部署:依次克隆 Keye 定制版 SGLang、DeepGEMM 和 EffectiveKernels 三个依赖仓库并完成编译安装。
-
启动推理服务:使用 SGLang 加载模型权重,设置张量并行参数并开启远程代码信任,即可在本地启动兼容 OpenAI 协议的 API 服务。
-
调用 API:启动后通过标准 HTTP 请求发送视频与文本指令,模型将返回结构化的长视频理解结果或 Agent 执行输出。
Keye-VL-2.0-30B-A3B的核心优势
-
DSA 首次落地多模态:首次将 DeepSeek Sparse Attention 引入多模态理解场景,从根本上破解了超长视觉上下文带来的指数级算力瓶颈,实现小时级视频的高效推理。
-
256K 超长上下文:支持高达 256K 的 Token 级超长上下文,可对小时级视频序列进行几乎无损的端到端深度感知,无需像传统模型那样分段截断处理。
-
毫秒级帧级定位:具备手术刀般的细粒度时序解析能力,能够对复杂工艺流程、游戏高光等场景中的每一个关键动作进行精确到时间戳的拆解与定位。
-
时序因果推理:超越简单的画面标签识别,在连续时序流动中捕捉因果链条,实现从”看见画面”到”读懂逻辑”的跨越,例如能从”雪地车祸”画面直接推断出”跟团优于自驾”的安全策略。
-
Agent 协作机制:Keye 系列首次解锁 Code、Tool、Search 等复杂场景的系统级自主协作与执行能力,让模型从被动的”观察者”进化为主动解决任务的”行动者”。
Keye-VL-2.0-30B-A3B的项目地址
- GitHub仓库:https://github.com/Kwai-Keye/Keye
- HuggingFace模型库:https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
Keye-VL-2.0-30B-A3B的同类竞品对比
| 对比维度 | Keye-VL-2.0-30B-A3B | Gemini-2.5-Pro | Gemini 3 Flash |
|---|---|---|---|
| 所属公司 | 快手(Kuaishou) | ||
| 模型规模 | 30B | 未公开(Pro 级) | 未公开(Flash 级) |
| 核心架构 | DSA 稀疏注意力 + 多模态融合 | 闭源多模态架构 | 闭源多模态架构 |
| 超长上下文 | 256K Token(小时级视频) | 长上下文 | 长上下文 |
| ActivityNet-TimeLens< 视频动作定位 |
mIoU 58.5 | mIoU 58.1 | mIoU 57.0 |
| Charades-TimeLens< 日常动作时序解析 |
mIoU 58.4 | — | mIoU 61.2 |
| QVHighlights-TimeLens< 高光时刻提取 |
mIoU 70.1 | — | mIoU 49.5 |
| Agent 协作能力 | 首次解锁< Code / Tool / Search |
支持 | 支持 |
| 开源情况 | 完全开源< (权重+代码+文档) |
闭源 | 闭源 |
Keye-VL-2.0-30B-A3B的应用场景
-
长视频内容理解:Keye-VL-2.0-30B-A3B 可对旅行 Vlog、纪录片、教学视频等小时级长视频进行深度时序因果推理,自动生成包含装备建议、预算规划、景点推荐及安全提示的完整结构化总结。
-
工业流程分析:该模型能够以毫秒级精度定位复杂工艺视频中的关键动作节点,将制造流程精确拆解为多个阶段并标注时间戳,适用于工艺拆解、操作规范提取与质检流程优化。
-
电竞与体育内容生产:基于视觉张力、音画协同及叙事逻辑的深度理解,模型可精准判定电竞或体育赛事视频中的高光时刻与情绪共鸣点,实现超越简单击杀提示的智能化精彩瞬间提取。
-
Agent 自动化任务:作为 Keye 系列首次解锁的协作机制,该模型支持代码生成、工具调用与多步骤搜索的系统级自主执行,能够完成从多模态感知到逻辑推理再到工具调用的复杂闭环任务。
-
教育与培训:在实操教学场景中,模型可对学员操作视频进行毫秒级关键动作定位与步骤拆解,为教师提供精准的教学反馈与操作纠偏依据,辅助技能评估与课程优化。