AiBoss站跨市场 · 多语言 AI 工具发现站

project2026年6月10日

VitaBench 2.0 - 美团 LongCat 推出的长期动态智能体评测基准

VitaBench 2.0 是美团 LongCat 团队推出的首个真实生活场景下长期动态用户建模智能体评测基准，包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好及 6...

VitaBench 2.0是什么

VitaBench 2.0 是美团 LongCat 团队推出的首个真实生活场景下长期动态用户建模智能体评测基准，包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好及 66 个可执行工具，平均交互跨度达 1580 天，系统评测大模型在长期互动中的个性化与主动性能力。

VitaBench 2.0的主要功能

拟真用户轨迹构建：为 56 位虚拟用户构建覆盖送餐、到店、差旅等领域的长期生活轨迹。
动态偏好演化：嵌入超 2000 种偏好，平均每位用户发生 48 次以上动态变化。
复杂任务评测：提供 819 个贯穿用户生命周期的可执行任务。
双记忆模式对决：统一评测 Agentic Memory（主动维护档案）与 RAG Memory（检索历史片段）。
主动性任务设计：考验 AI 在信息不足时主动提问非盲目决策的能力。

VitaBench 2.0的技术原理

三维解构架构：将用户信息（画像+偏好+历史+任务）→ 个性化记忆→ 智能体任务串联为完整闭环。
时间标尺暴露：严格按时间线向 Agent 暴露交互事件，真实还原用户偏好的演进与漂移。
记忆擂台机制：通过可扩展接口让两种记忆架构在相同用户场景下公平对决，评估不同设计对决策的真实影响。
噪音信号分离：约 20% 交互包含无关、探索性、代理等噪音，考验模型从混杂线索中提取真实偏好的能力。

如何使用VitaBench 2.0

克隆仓库：执行 git clone https://github.com/meituan-longcat/vitabench-2.0.git 获取评测框架与运行脚本。
下载数据：从 HuggingFace 数据集拉取包含 56 名用户轨迹、819 个任务及 66 个工具的标准化数据集。
安装依赖：进入项目目录并运行安装命令，配置 Python 环境与所需库。
选择模式：在 Full Context、Agentic Memory、RAG Memory 三种记忆设置中选定一种作为评测基线。
接入模型：按照仓库文档将你的大模型或 Agent 接入评测接口，使其按时间线接收用户事件并调用工具。
启动评测：运行评测脚本，让 Agent 在送餐、到店、差旅等场景中依次执行标准化任务。
查看报告：分析生成的性能报告，对比 Avg@4、Pass@4 等指标及时间衰减曲线，定位模型在长期用户建模上的短板。

VitaBench 2.0的核心优势

业界首创：首个将智能体场景与丰富用户生态结合、面向真实生活长期动态用户建模的评测基准。
超长时间跨度：平均交互周期达 1580 天（最长 2974 天），真实还原用户偏好的长期演进与漂移。
高真实度用户画像：56 位虚拟用户基于真实世界统计数据构建，覆盖性别、年龄、城市层级、职业、婚恋等多维特征。
动态偏好演化：嵌入超 2000 种偏好，平均每位用户经历 48 次以上动态变化，模拟真实生活中的习惯改变。
统一记忆评测生态：搭建首个真实场景下的长期智能体评测平台，统一对比 Agentic Memory 与 RAG Memory 两种架构。

VitaBench 2.0的项目地址

项目官网：https://vitabench2.github.io/
GitHub仓库：https://github.com/meituan-longcat/vitabench-2.0
HuggingFace模型库：https://huggingface.co/datasets/meituan-longcat/VitaBench-2.0
arXiv技术论文：https://arxiv.org/pdf/2605.27141

VitaBench 2.0的同类竞品对比

维度	VitaBench 2.0	SWE-bench
核心目标	评测 AI 在长期动态互动中理解用户偏好与主动服务的能力	评测 AI 解决真实 GitHub 软件工程问题的能力
任务类型	生活服务决策（点餐、差旅、到店推荐）	代码修复、功能实现、测试通过
时间跨度	平均 1580 天，最长 2974 天	单次独立任务，无时间线概念
用户维度	56 个拟真用户，含画像、偏好演化与社交背景	无用户概念，仅关注代码库与 Issue
记忆机制	核心评测维度，对比 Agentic / RAG / Full Context 三种记忆模式	不涉及记忆，仅依赖当前代码上下文
主动性要求	设计主动性任务，要求 AI 在信息不足时主动提问	不涉及主动性交互，直接输出代码补丁
数据噪音	约 20% 交互为无关/探索性噪音，需分离信号	问题描述与代码相对清晰，噪音较低
最强模型得分	全历史模式下最高分约 0.50（Claude-Opus-4.6）	顶尖模型通过率可达 40%-60% 以上
适用领域	个人助理、智能客服、生活服务平台	自动化编程、代码审查、DevOps 工具

VitaBench 2.0的应用场景

AI 个人助理评测：测试智能助手在长期陪伴中的用户理解与个性化服务能力。
智能客服优化：评估客服系统对用户偏好记忆与动态适配的准确程度。
生活服务平台：为外卖、出行、酒店等场景的推荐算法提供贴近真实的评测环境。
记忆模块研发：帮助研究者对比选型 Agentic Memory 与 RAG Memory 在不同场景下的表现。
长上下文模型边界探索：检验大模型在超长时序、高噪音场景下的能力极限。