project
AReaL 2.0 - 蚂蚁等开源的Agent在线强化学习基础架构
AReaL 2.0是蚂蚁联合香港科技大学、清华大学开源的Agent在线强化学习基础架构,能让已部署的Agent从真实交互轨迹中持续自我演进。
AReaL 2.0是什么
AReaL 2.0是蚂蚁联合香港科技大学、清华大学开源的Agent在线强化学习基础架构,能让已部署的Agent从真实交互轨迹中持续自我演进。AReaL 2.0通过轨迹数据协议、企业级数据代理和演进控制平面三根支柱,将生产环境中的会话流转化为可训练经验,无需重写Agent或推倒业务系统,已加入PyTorch基金会并支持昇腾NPU适配。
AReaL 2.0的主要功能
- 在线RL闭环:将Agent真实交互轨迹自动转化为可训练经验,实现从执行到学习的闭环。
- 轨迹数据采集:通过ATDP协议以步骤为单位记录完整决策过程,包括观察、动作、结果和元数据。
- 企业级数据治理:Data Proxy负责拦截、脱敏、权限控制和轨迹持久化,确保训练前完成合规处理。
- 演进控制平面:根据轨迹统计、失败簇、用户修正率等多维信号,判断模型更新、记忆写入或工具调整等修复入口。
- 微服务化架构:将训练、推理、权重更新拆分为Gateway、Router、Data Proxy等可独立部署的组件。
AReaL 2.0的技术原理
- Agent Trajectory Data Protocol (ATDP):面向学习的智能体轨迹协议,将复杂任务拆分为可追责、可回放的学习样本。以步骤为单位记录Agent的观察、内部状态、动作选择、动作结果、奖励反馈以及模型版本、工具版本、租户、成本等元数据,回答”哪次检索、哪个工具调用影响了任务成败”等关键问题。
- Agentic Data Proxy:部署在模型、工具、检索系统、人类反馈渠道等关键边界上的学习数据层。负责拦截、采集、脱敏、权限控制、轨迹持久化、奖励收集和回放管理。数据进入训练队列前即完成治理,区分可见字段、训练资格数据和仅用于调试审计的数据。
- Agent Evolution Control Plane:智能体演进控制平面,将”是否更新、更新哪里”变成可治理的系统性决策。根据轨迹统计、用户修正率、工具失败簇、评估器得分、成本信号、安全约束和分布漂移,判断演进应落在模型RL、偏好优化、记忆写入还是工具路由调整层面,并支持回放评估、回归测试、灰度发布和版本化追踪。
- Online RL微服务运行时:将原有RL基础设施改造为承接Agent服务流量的在线系统。Gateway作为入口承接请求;Router维护会话与Data Proxy的绑定关系,保证多轮交互上下文连续;Data Proxy管理会话状态和轨迹;Agent-Compute Worker执行推理、采样和训练计算;Controller负责调度、扩缩容和健康检查。
微信关注回复“开源”,加入AI开源项目交流群
如何使用AReaL 2.0
-
访问项目主页:打开GitHub仓库 https://github.com/areal-project/AReaL 获取源码和文档。
-
安装基础设施:部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等微服务组件。
-
切换推理入口:将现有Agent的LLM API调用后端(base_url/api_key)指向AReaL 2.0管理的Gateway。
-
配置轨迹协议:启用ATDP,以步骤为单位记录Agent的观察、动作、工具调用和结果。
-
部署数据代理:配置Data Proxy完成数据拦截、脱敏、权限控制和轨迹持久化。
-
启动训练闭环:将采集的真实轨迹导入训练服务,启动在线RL,让Agent从交互中持续学习。
AReaL 2.0的核心优势
-
低侵入式接入:只需切换LLM推理后端,无需重写Agent的规划、工具调用、沙箱或记忆模块。
-
真实轨迹驱动:直接用线上真实交互数据训练,弥合离线仿真环境与实际行为之间的差距。
-
企业级安全治理:数据脱敏、权限控制和合规边界在训练前完成,适配多租户、多业务线场景。
-
可解释可回滚:每次演进经过回放评估、回归测试和版本化追踪,出问题可快速退回。
-
开源生态丰富:已加入PyTorch基金会,社区提供昇腾NPU适配和LoRA低算力方案。
AReaL 2.0的项目地址
- 项目官网:https://areal-ai.io/en/intro.html
- GitHub仓库:https://github.com/areal-project/AReaL
- arXiv技术论文:https://arxiv.org/pdf/2607.01120
AReaL 2.0的同类竞品对比
| 对比维度 | AReaL 2.0 | OpenRLHF |
|---|---|---|
| 产品定位 | Agent在线RL基础设施,面向服务侧持续演进 | 通用LLM RLHF训练框架,面向模型后训练 |
| 数据来源 | 真实部署环境中的在线会话轨迹 | 离线构建的偏好数据集和仿真环境 |
| 接入方式 | 微服务化,低侵入切换推理后端即可接入 | 需重构训练流程,适配特定模型结构 |
| 数据治理 | 内置企业级Data Proxy,训练前完成脱敏与权限控制 | 需额外搭建数据清洗和治理流程 |
| 架构设计 | Gateway-Router-Worker微服务解耦,支持会话保持和横向扩展 | 集中式训练架构,侧重分布式计算效率 |
| 适用场景 | 已上线的Agent从真实交互中持续自我改进 | 新模型的RLHF后训练与对齐优化 |
AReaL 2.0的应用场景
-
软件工程智能体:训练Coding Agent从真实issue修复、代码审查和PR生成中持续改进策略,如Claude Code类Agent的端到端RL训练。
-
企业客服助手:从用户对话、满意度反馈和人工修正中优化回复策略、工具调用路径和知识检索准确性。
-
科研实验助理:记录文献检索、实验设计、数据分析的完整轨迹,优化多工具编排和跨平台操作能力。
-
复杂任务调度Agent:在多轮交互、多工具调用的工作流中,持续改进工具选择、路由策略和错误恢复机制。
-
多租户SaaS智能体:为不同业务线、不同权限边界的Agent提供隔离的轨迹采集和定制化在线学习服务。