JoyAI-VL-Interaction - 京东开源的实时视频视觉语言交互模型 - AiBoss

JoyAI-VL-Interaction是什么

JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型，是全球首个全栈开源的 interaction 模型系统。JoyAI-VL-Interaction让大模型从一问一答转向边看边说，可持续观察视频流、自主判断何时发声、实时响应画面变化，支持将复杂任务委托给后台 Agent 处理。在 58 项真人盲评中，对比豆包视频通话助手胜率 77.6%，对比 Gemini 胜率 87.9%。

JoyAI-VL-Interaction的主要功能

主动视觉响应：持续观察摄像头/直播流/监控流，自主判断何时说话、何时沉默，无需用户逐轮提问。
实时流式交互：面向正在发生的视频流即时响应，画面变化时秒级反馈，而非事后总结完整视频。
智能体委托：遇到代码生成、工具调用、复杂推理等任务时，自动交给后台大模型或 Agent，前台继续观察。
多模态输入输出：支持语音输入输出、可视化界面、长期记忆，ASR/TTS/界面均可按需替换。
长时记忆：具备分钟级视觉记忆，可回溯数分钟前的画面细节并准确回答。

JoyAI-VL-Interaction的技术原理

视觉优先的交互决策：模型核心是一个每秒自动执行的决策——说话、沉默或委托。模型基于 JoyAI-VL-8B 视觉语言指令模型构建，将语音作为可插拔的输入输出，模型的唯一任务是观察画面并判断行动时机。
预测性视频编解码：采用 AdaCodec 预测性视频编解码器，对可预测帧仅消耗少量 token，在场景实际变化时保留完整细节，使 token 预算随时间缓慢增长而非逐帧膨胀，支撑长时实时流处理。
时序对齐的行为学习：模型通过超过 400 万条逐秒标注的时序交互片段进行训练，每条数据精确标注何时该说话、沉默或委托，并辅以强化学习微调，使行为从数据中学习。
可插拔的系统架构：围绕核心模型构建完整部署系统，包括流式 ASR/TTS、长时记忆模块、可视化 UI、后台模型桥接。所有组件均可独立替换，整体基于标准 vLLM 基础设施运行，获得 vLLM-Omni 的 day-0 原生支持。

微信关注回复 “开源”，加入AI开源项目交流群

如何使用JoyAI-VL-Interaction

克隆仓库：访问 GitHub 开源仓库 jd-opensource/JoyAI-VL-Interaction 获取完整代码与部署系统。
获取模型：从 Hugging Face 下载 jdopensource/JoyAI-VL-Interaction-Preview 模型权重。
准备环境：基于标准 vLLM 基础设施部署，支持摄像头、RTSP 监控流、直播流等多种视频输入。
自定义组件：按需替换 ASR、TTS、语音服务、Agent、API 或前端界面，接入自有业务系统。
运行体验：启动后指向摄像头或直播流，模型即进入实时观察与交互状态。

JoyAI-VL-Interaction的核心优势

全栈开源：8B 模型、训练配方、400 万条时序数据、完整可部署系统全部开放，可复现可扩展。
实时在场：能在直播流中持续观察数小时，响应延迟低于 1 秒，真正”在场”而非轮询唤醒。
视觉触发主动性：从画面内容自主决策发言时机，在监控预警、实时翻译等场景中实现零延迟告警。
前后台分离：前台模型保持视觉观察不间断，后台处理复杂任务，结果自然接回对话，不中断交互流。
轻量可部署：8B 参数规模紧凑，可在标准基础设施上运行，降低实时 AI 助手的部署门槛。

JoyAI-VL-Interaction的项目地址

项目官网：https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
GitHub仓库：https://github.com/jd-opensource/JoyAI-VL-Interaction/
HuggingFace模型库：https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
技术论文：https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf

JoyAI-VL-Interaction的同类竞品对比

对比维度	JoyAI-VL-Interaction	豆包视频通话模型
模型规模	8B 参数，轻量视觉语言交互模型	大参数规模，通用多模态模型
核心范式	视觉优先的主动交互模型，每秒自主决策”说/沉默/委托”	轮询式问答模型，依赖用户触发后才处理当前帧
实时处理	面向流式视频持续观察，画面变化即时响应	主要处理用户提问瞬间的静态画面快照
时序感知	内置时间感知能力，可执行”20秒后提醒””每3秒播报”等时序任务	时序任务表现不稳定，测试中未按时提醒
记忆机制	分钟级长时视觉记忆，可回溯数分钟前的画面细节	长时视觉记忆易出错，如测试中给出错误的肉丸数量
视觉触发	由画面事件自主触发语音输出，无需用户提问	需用户主动提问才能生成回复，无法自主告警
持续跟踪	可持续跟踪字幕变化、重复动作计数、App界面切换	难以维持跨帧状态，计数和翻译易中断

JoyAI-VL-Interaction的应用场景

安防监控：实时观察监控流，对异常事件（如摔倒、入侵）即时语音告警，无需人工盯屏。
老人/儿童看护：持续观察居家画面，发现危险行为（靠近 stove、独自外出）主动提醒。
直播导览/电商导购：实时解说直播画面，自动介绍商品细节，或根据用户穿搭主动给出搭配建议。
实时翻译：观看外语视频或面对面交流时，持续识别字幕/对话并实时口播翻译。
操作指导：指导用户操作 App 或设备，跟随屏幕变化逐步提示，而非仅描述静态截图。
AI 眼镜/无障碍辅助：作为 AI 眼镜的核心视觉大脑，为视障人士实时描述周围环境并主动提示障碍。

JoyAI-VL-Interaction是什么

JoyAI-VL-Interaction的主要功能

主动视觉响应：持续观察摄像头/直播流/监控流，自主判断何时说话、何时沉默，无需用户逐轮提问。

实时流式交互：面向正在发生的视频流即时响应，画面变化时秒级反馈，而非事后总结完整视频。

智能体委托：遇到代码生成、工具调用、复杂推理等任务时，自动交给后台大模型或 Agent，前台继续观察。

多模态输入输出：支持语音输入输出、可视化界面、长期记忆，ASR/TTS/界面均可按需替换。

长时记忆：具备分钟级视觉记忆，可回溯数分钟前的画面细节并准确回答。

JoyAI-VL-Interaction的技术原理

视觉优先的交互决策：模型核心是一个每秒自动执行的决策——说话、沉默或委托。模型基于 JoyAI-VL-8B 视觉语言指令模型构建，将语音作为可插拔的输入输出，模型的唯一任务是观察画面并判断行动时机。

预测性视频编解码：采用 AdaCodec 预测性视频编解码器，对可预测帧仅消耗少量 token，在场景实际变化时保留完整细节，使 token 预算随时间缓慢增长而非逐帧膨胀，支撑长时实时流处理。

时序对齐的行为学习：模型通过超过 400 万条逐秒标注的时序交互片段进行训练，每条数据精确标注何时该说话、沉默或委托，并辅以强化学习微调，使行为从数据中学习。

可插拔的系统架构：围绕核心模型构建完整部署系统，包括流式 ASR/TTS、长时记忆模块、可视化 UI、后台模型桥接。所有组件均可独立替换，整体基于标准 vLLM 基础设施运行，获得 vLLM-Omni 的 day-0 原生支持。

微信关注回复 “开源”，加入AI开源项目交流群

如何使用JoyAI-VL-Interaction

克隆仓库：访问 GitHub 开源仓库 jd-opensource/JoyAI-VL-Interaction 获取完整代码与部署系统。

获取模型：从 Hugging Face 下载 jdopensource/JoyAI-VL-Interaction-Preview 模型权重。

准备环境：基于标准 vLLM 基础设施部署，支持摄像头、RTSP 监控流、直播流等多种视频输入。

自定义组件：按需替换 ASR、TTS、语音服务、Agent、API 或前端界面，接入自有业务系统。

运行体验：启动后指向摄像头或直播流，模型即进入实时观察与交互状态。

JoyAI-VL-Interaction的核心优势

全栈开源：8B 模型、训练配方、400 万条时序数据、完整可部署系统全部开放，可复现可扩展。

实时在场：能在直播流中持续观察数小时，响应延迟低于 1 秒，真正”在场”而非轮询唤醒。

视觉触发主动性：从画面内容自主决策发言时机，在监控预警、实时翻译等场景中实现零延迟告警。

前后台分离：前台模型保持视觉观察不间断，后台处理复杂任务，结果自然接回对话，不中断交互流。

轻量可部署：8B 参数规模紧凑，可在标准基础设施上运行，降低实时 AI 助手的部署门槛。

JoyAI-VL-Interaction的项目地址

项目官网：https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

GitHub仓库：https://github.com/jd-opensource/JoyAI-VL-Interaction/

HuggingFace模型库：https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

技术论文：https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf

JoyAI-VL-Interaction的同类竞品对比

对比维度

JoyAI-VL-Interaction

豆包视频通话模型

模型规模

8B 参数，轻量视觉语言交互模型

大参数规模，通用多模态模型

核心范式

视觉优先的主动交互模型，每秒自主决策”说/沉默/委托”

轮询式问答模型，依赖用户触发后才处理当前帧

实时处理

面向流式视频持续观察，画面变化即时响应

主要处理用户提问瞬间的静态画面快照

时序感知

内置时间感知能力，可执行”20秒后提醒””每3秒播报”等时序任务

时序任务表现不稳定，测试中未按时提醒

记忆机制

分钟级长时视觉记忆，可回溯数分钟前的画面细节

长时视觉记忆易出错，如测试中给出错误的肉丸数量

视觉触发

由画面事件自主触发语音输出，无需用户提问

需用户主动提问才能生成回复，无法自主告警

持续跟踪

可持续跟踪字幕变化、重复动作计数、App界面切换

难以维持跨帧状态，计数和翻译易中断

JoyAI-VL-Interaction的应用场景

安防监控：实时观察监控流，对异常事件（如摔倒、入侵）即时语音告警，无需人工盯屏。

老人/儿童看护：持续观察居家画面，发现危险行为（靠近 stove、独自外出）主动提醒。

直播导览/电商导购：实时解说直播画面，自动介绍商品细节，或根据用户穿搭主动给出搭配建议。

实时翻译：观看外语视频或面对面交流时，持续识别字幕/对话并实时口播翻译。

操作指导：指导用户操作 App 或设备，跟随屏幕变化逐步提示，而非仅描述静态截图。

AI 眼镜/无障碍辅助：作为 AI 眼镜的核心视觉大脑，为视障人士实时描述周围环境并主动提示障碍。

すべてのカテゴリ

JoyAI-VL-Interaction是什么

JoyAI-VL-Interaction的主要功能

JoyAI-VL-Interaction的技术原理

如何使用JoyAI-VL-Interaction

JoyAI-VL-Interaction的核心优势

JoyAI-VL-Interaction的项目地址

JoyAI-VL-Interaction的同类竞品对比

JoyAI-VL-Interaction的应用场景

JoyAI-VL-Interaction是什么

JoyAI-VL-Interaction的主要功能

JoyAI-VL-Interaction的技术原理

如何使用JoyAI-VL-Interaction

JoyAI-VL-Interaction的核心优势

JoyAI-VL-Interaction的项目地址

JoyAI-VL-Interaction的同类竞品对比

JoyAI-VL-Interaction的应用场景