project
JoyAI-VL-Interaction - 京东开源的实时视频视觉语言交互模型
JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型,是全球首个全栈开源的 interaction 模型系统。
JoyAI-VL-Interaction是什么
JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型,是全球首个全栈开源的 interaction 模型系统。JoyAI-VL-Interaction让大模型从一问一答转向边看边说,可持续观察视频流、自主判断何时发声、实时响应画面变化,支持将复杂任务委托给后台 Agent 处理。在 58 项真人盲评中,对比豆包视频通话助手胜率 77.6%,对比 Gemini 胜率 87.9%。
JoyAI-VL-Interaction的主要功能
-
主动视觉响应:持续观察摄像头/直播流/监控流,自主判断何时说话、何时沉默,无需用户逐轮提问。
-
实时流式交互:面向正在发生的视频流即时响应,画面变化时秒级反馈,而非事后总结完整视频。
-
智能体委托:遇到代码生成、工具调用、复杂推理等任务时,自动交给后台大模型或 Agent,前台继续观察。
-
多模态输入输出:支持语音输入输出、可视化界面、长期记忆,ASR/TTS/界面均可按需替换。
-
长时记忆:具备分钟级视觉记忆,可回溯数分钟前的画面细节并准确回答。
JoyAI-VL-Interaction的技术原理
- 视觉优先的交互决策:模型核心是一个每秒自动执行的决策——说话、沉默或委托。模型基于 JoyAI-VL-8B 视觉语言指令模型构建,将语音作为可插拔的输入输出,模型的唯一任务是观察画面并判断行动时机。
- 预测性视频编解码:采用 AdaCodec 预测性视频编解码器,对可预测帧仅消耗少量 token,在场景实际变化时保留完整细节,使 token 预算随时间缓慢增长而非逐帧膨胀,支撑长时实时流处理。
- 时序对齐的行为学习:模型通过超过 400 万条逐秒标注的时序交互片段进行训练,每条数据精确标注何时该说话、沉默或委托,并辅以强化学习微调,使行为从数据中学习。
- 可插拔的系统架构:围绕核心模型构建完整部署系统,包括流式 ASR/TTS、长时记忆模块、可视化 UI、后台模型桥接。所有组件均可独立替换,整体基于标准 vLLM 基础设施运行,获得 vLLM-Omni 的 day-0 原生支持。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用JoyAI-VL-Interaction
-
克隆仓库:访问 GitHub 开源仓库
jd-opensource/JoyAI-VL-Interaction获取完整代码与部署系统。 -
获取模型:从 Hugging Face 下载
jdopensource/JoyAI-VL-Interaction-Preview模型权重。 -
准备环境:基于标准 vLLM 基础设施部署,支持摄像头、RTSP 监控流、直播流等多种视频输入。
-
自定义组件:按需替换 ASR、TTS、语音服务、Agent、API 或前端界面,接入自有业务系统。
-
运行体验:启动后指向摄像头或直播流,模型即进入实时观察与交互状态。
JoyAI-VL-Interaction的核心优势
-
全栈开源:8B 模型、训练配方、400 万条时序数据、完整可部署系统全部开放,可复现可扩展。
-
实时在场:能在直播流中持续观察数小时,响应延迟低于 1 秒,真正”在场”而非轮询唤醒。
-
视觉触发主动性:从画面内容自主决策发言时机,在监控预警、实时翻译等场景中实现零延迟告警。
-
前后台分离:前台模型保持视觉观察不间断,后台处理复杂任务,结果自然接回对话,不中断交互流。
-
轻量可部署:8B 参数规模紧凑,可在标准基础设施上运行,降低实时 AI 助手的部署门槛。
JoyAI-VL-Interaction的项目地址
- 项目官网:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
- GitHub仓库:https://github.com/jd-opensource/JoyAI-VL-Interaction/
- HuggingFace模型库:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
- 技术论文:https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf
JoyAI-VL-Interaction的同类竞品对比
| 对比维度 | JoyAI-VL-Interaction | 豆包视频通话模型 |
|---|---|---|
| 模型规模 | 8B 参数,轻量视觉语言交互模型 | 大参数规模,通用多模态模型 |
| 核心范式 | 视觉优先的主动交互模型,每秒自主决策”说/沉默/委托” | 轮询式问答模型,依赖用户触发后才处理当前帧 |
| 实时处理 | 面向流式视频持续观察,画面变化即时响应 | 主要处理用户提问瞬间的静态画面快照 |
| 时序感知 | 内置时间感知能力,可执行”20秒后提醒””每3秒播报”等时序任务 | 时序任务表现不稳定,测试中未按时提醒 |
| 记忆机制 | 分钟级长时视觉记忆,可回溯数分钟前的画面细节 | 长时视觉记忆易出错,如测试中给出错误的肉丸数量 |
| 视觉触发 | 由画面事件自主触发语音输出,无需用户提问 | 需用户主动提问才能生成回复,无法自主告警 |
| 持续跟踪 | 可持续跟踪字幕变化、重复动作计数、App界面切换 | 难以维持跨帧状态,计数和翻译易中断 |
JoyAI-VL-Interaction的应用场景
-
安防监控:实时观察监控流,对异常事件(如摔倒、入侵)即时语音告警,无需人工盯屏。
-
老人/儿童看护:持续观察居家画面,发现危险行为(靠近 stove、独自外出)主动提醒。
-
直播导览/电商导购:实时解说直播画面,自动介绍商品细节,或根据用户穿搭主动给出搭配建议。
-
实时翻译:观看外语视频或面对面交流时,持续识别字幕/对话并实时口播翻译。
-
操作指导:指导用户操作 App 或设备,跟随屏幕变化逐步提示,而非仅描述静态截图。
-
AI 眼镜/无障碍辅助:作为 AI 眼镜的核心视觉大脑,为视障人士实时描述周围环境并主动提示障碍。