project
GenericAgent - A3 Lab 推出的通用自进化 LLM Agent 系统
GenericAgent(GA)是 A3 Lab 推出的通用自进化 LLM Agent 系统,以'上下文信息密度最大化'为核心设计原则。GenericAgent通过 9 个原子工具、30k 上下文窗口...
GenericAgent是什么
GenericAgent(GA)是 A3 Lab 推出的通用自进化 LLM Agent 系统,以”上下文信息密度最大化”为核心设计原则。GenericAgent通过 9 个原子工具、30k 上下文窗口和四层分层记忆架构,在 Lifelong AgentBench 上实现 100% 任务完成率,token 消耗为 Claude Code 的 27.7% 和 OpenClaw 的 15.5%。GenericAgent支持经验沉淀为可复用 SOP 与可执行代码,具备跨任务自进化能力,代码量仅 3300 行,以自托管 CLI 形式运行。
GenericAgent的主要功能
-
极简原子工具集:提供 file_read、file_patch、file_write、code_run、web_scan、web_execute_js、update_working_checkpoint、start_long_term_update、ask_user 共 9 个原子工具,覆盖文件操作、代码执行、网页交互、记忆管理与人工介入五大能力域。
-
分层按需记忆:采用 L0 元规则、L1 索引层、L2 事实层、L3 SOP 层、L4 原始归档层的四级架构,用 L1 常驻上下文,深层记忆按需显式读取。
-
自进化能力:将验证后的执行轨迹沉淀为可复用 SOP 文件与可执行脚本,遵循”No Execution, No Memory”原则,实现跨任务经验累积与能力进化。
-
上下文压缩管理:通过工具输出截断、标签级压缩、消息驱逐与工作记忆锚点四阶段策略,将活跃上下文稳在 30k token 以内。
-
双模式执行:支持 Interact 模式处理用户主动任务,以及 Reflect 模式作为 Watchdog 自动监测环境变化并触发任务。
GenericAgent的技术原理
-
上下文信息密度最大化:将上下文质量拆解为完整性(Completeness)、简洁性(Conciseness)与自然性(Naturalness)三维度,通过极简工具、分层记忆、自进化与压缩机制,在有限窗口内最大化决策相关信息比例。
-
工具最小化与组合泛化:基于原子性(不可再拆)与组合泛化(复杂行为通过序列组合实现)两个条件,保留 9 个原子工具,避免工具膨胀带来的 prompt 开销与策略歧义。
-
分层记忆架构:L1 索引层仅记录”某类知识存在”而非内容,由 LLM 充当解码器按需取回;引入 meta-memory 元记忆层定义全局规则与更新边界;采用触发式提交而非即时写入,经验经验证后才增量写入长期记忆。
-
自进化管道:工具层与知识层分离,新任务学习不干扰既有技能;在里程碑事件触发整合阶段,保留经成功工具执行验证的内容;引入三级失败升级机制(局部修复→策略切换→人工介入)防止错误循环。
-
四阶段上下文截断:阶段一按字符阈值裁剪工具返回值;阶段二每约 5 轮替换重复工作记忆块并截断标签内容;阶段三按 FIFO 驱逐最旧消息;阶段四附加工作记忆锚点作为长期记忆唯一来源。
如何使用GenericAgent
-
环境准备:确保本地具备 Python 运行环境,准备好兼容的 LLM API Key(支持 Claude、GPT、Gemini 等后端)。
-
获取代码:通过论文发布渠道(arXiv:2604.17091)获取约 3300 行核心源码与部署指引。
-
配置安装:在本地完成依赖安装与 LLM 后端配置,设定 30k token 的上下文预算与字符预算阈值。
-
启动运行:以自托管 CLI 形式启动 GA,进入 Interact 模式可直接输入任务指令,或配置 Reflect 模式的触发脚本实现自动监测。
-
任务执行:Agent 基于当前任务与相关记忆构建执行上下文,生成工具调用或输出,通过结构化反馈更新系统状态。
-
经验沉淀:任务完成后,系统自动将验证后的执行轨迹压缩并归档至 L4,经触发整合后沉淀为 L2/L3 长期记忆,供后续任务复用。
GenericAgent的关键信息和使用要求
-
开发团队:由 A3 Lab(Advantage AI Agent Lab,深圳 Aquaintelling 科技与复旦大学联合研究团队)开发。
-
开源形态:核心代码约 3300 行,中央 Agent Loop 仅 92 行,以自托管 CLI 程序形式部署,命令行为原生执行界面。
-
模型兼容:模型无关架构,支持 Claude、GPT、Gemini 等主流 LLM 后端,可替换而不影响执行逻辑与工具接口。
-
上下文预算:默认将活跃上下文控制在 30k token 以内,采用字符域启发式(α≈3 chars/token)进行预算管理。
-
执行边界:单会话默认 30 轮执行上限,支持通过子 Agent 派发实现多进程隔离与长程任务拆分。
-
使用门槛:需配置 LLM API Key,具备本地计算环境运行权限,适合有技术背景的用户自托管部署。
GenericAgent的核心优势
-
极致 Token 效率:在 Lifelong AgentBench 上用 222k 输入 token 实现 100% 完成率,较 Claude Code 降低 72.3%,较 OpenClaw 降低 84.5%。
-
持续自进化:9 轮重复任务后 token 消耗下降 89.6%,LLM 调用从 32 次收敛至 5 次,实现”冷启动-快速收敛”的复利效应。
-
极简架构:3300 行核心代码 vs OpenClaw 的 53 万行,极简设计使 Agent 具备读懂并修改自身架构的潜力。
-
高密度记忆:装入 20 个技能后完整 prompt 仅 2298 token,较 Claude Code(22821)、Codex(23932)、OpenClaw(43321)降低一个数量级。
-
强网页能力:在 WebCanvas、BrowseComp-ZH、Custom Tasks 上得分均超 OpenClaw,token 消耗仅为其 1/4-1/3。
GenericAgent的项目地址
- GitHub仓库:https://github.com/lsdefine/GenericAgent
- arXiv技术论文:https://arxiv.org/pdf/2604.17091
GenericAgent的同类竞品对比
| 维度 | GenericAgent | OpenClaw | Claude Code |
|---|---|---|---|
| 核心代码量 | ~3,300 行 | ~530,000 行 | 未公开 |
| 原子工具数 | 9 个 | 18 个工具工厂 + 插件 | 53 个 |
| 上下文策略 | 30k 压缩窗口 | 依赖 1M 扩展窗口 | 依赖长上下文 |
| Lifelong AgentBench 完成率 | 100% | 70% | 75% |
| Lifelong AgentBench 输入 Token | 222k | 1.43M | 800k |
| 自进化能力 | 经验沉淀为 SOP/代码 | 无显著收敛趋势 | 无跨会话记忆 |
| 记忆架构 | 四层分层按需加载 | 检索增强原始日志 | 无持久记忆 |
| 网页浏览 Token 效率 | 0.18M (WebCanvas) | 0.71M | 未评测 |
GenericAgent的应用场景
-
长程软件工程:GenericAgent支持 GitHub 仓库研究、多文件代码重构、复杂代码编辑与调试等需要持续多轮交互的开发任务。
-
自动化网页浏览:GenericAgent能执行电商价格比较、上市公司报告提取、航班查询导出、新闻订阅流验证等需要跨页面操作的信息检索任务。
-
金融与商业分析:在 RealFin-benchmark 等场景中完成动态金融数据爬取、财务报表分析等数据密集型研究任务。
-
政府与教育机构服务导航:完成政府服务网站导航、大学课程归档等需要跨页面状态转移的复杂流程自动化。
-
终身个人助手:作为跨会话累积用户偏好、工作习惯与外部服务知识的个人 Agent,持续进化以适配用户长期需求。