AReaL 2.0 - 蚂蚁等开源的Agent在线强化学习基础架构 - AiBoss

AReaL 2.0是什么

AReaL 2.0是蚂蚁联合香港科技大学、清华大学开源的Agent在线强化学习基础架构，能让已部署的Agent从真实交互轨迹中持续自我演进。AReaL 2.0通过轨迹数据协议、企业级数据代理和演进控制平面三根支柱，将生产环境中的会话流转化为可训练经验，无需重写Agent或推倒业务系统，已加入PyTorch基金会并支持昇腾NPU适配。

AReaL 2.0的主要功能

在线RL闭环：将Agent真实交互轨迹自动转化为可训练经验，实现从执行到学习的闭环。
轨迹数据采集：通过ATDP协议以步骤为单位记录完整决策过程，包括观察、动作、结果和元数据。
企业级数据治理：Data Proxy负责拦截、脱敏、权限控制和轨迹持久化，确保训练前完成合规处理。
演进控制平面：根据轨迹统计、失败簇、用户修正率等多维信号，判断模型更新、记忆写入或工具调整等修复入口。
微服务化架构：将训练、推理、权重更新拆分为Gateway、Router、Data Proxy等可独立部署的组件。

AReaL 2.0的技术原理

Agent Trajectory Data Protocol (ATDP)：面向学习的智能体轨迹协议，将复杂任务拆分为可追责、可回放的学习样本。以步骤为单位记录Agent的观察、内部状态、动作选择、动作结果、奖励反馈以及模型版本、工具版本、租户、成本等元数据，回答”哪次检索、哪个工具调用影响了任务成败”等关键问题。
Agentic Data Proxy：部署在模型、工具、检索系统、人类反馈渠道等关键边界上的学习数据层。负责拦截、采集、脱敏、权限控制、轨迹持久化、奖励收集和回放管理。数据进入训练队列前即完成治理，区分可见字段、训练资格数据和仅用于调试审计的数据。
Agent Evolution Control Plane：智能体演进控制平面，将”是否更新、更新哪里”变成可治理的系统性决策。根据轨迹统计、用户修正率、工具失败簇、评估器得分、成本信号、安全约束和分布漂移，判断演进应落在模型RL、偏好优化、记忆写入还是工具路由调整层面，并支持回放评估、回归测试、灰度发布和版本化追踪。
Online RL微服务运行时：将原有RL基础设施改造为承接Agent服务流量的在线系统。Gateway作为入口承接请求；Router维护会话与Data Proxy的绑定关系，保证多轮交互上下文连续；Data Proxy管理会话状态和轨迹；Agent-Compute Worker执行推理、采样和训练计算；Controller负责调度、扩缩容和健康检查。

微信关注回复“开源”，加入AI开源项目交流群

如何使用AReaL 2.0

访问项目主页：打开GitHub仓库 https://github.com/areal-project/AReaL 获取源码和文档。
安装基础设施：部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等微服务组件。
切换推理入口：将现有Agent的LLM API调用后端（base_url/api_key）指向AReaL 2.0管理的Gateway。
配置轨迹协议：启用ATDP，以步骤为单位记录Agent的观察、动作、工具调用和结果。
部署数据代理：配置Data Proxy完成数据拦截、脱敏、权限控制和轨迹持久化。
启动训练闭环：将采集的真实轨迹导入训练服务，启动在线RL，让Agent从交互中持续学习。

AReaL 2.0的核心优势

低侵入式接入：只需切换LLM推理后端，无需重写Agent的规划、工具调用、沙箱或记忆模块。
真实轨迹驱动：直接用线上真实交互数据训练，弥合离线仿真环境与实际行为之间的差距。
企业级安全治理：数据脱敏、权限控制和合规边界在训练前完成，适配多租户、多业务线场景。
可解释可回滚：每次演进经过回放评估、回归测试和版本化追踪，出问题可快速退回。
开源生态丰富：已加入PyTorch基金会，社区提供昇腾NPU适配和LoRA低算力方案。

AReaL 2.0的项目地址

项目官网：https://areal-ai.io/en/intro.html
GitHub仓库：https://github.com/areal-project/AReaL
arXiv技术论文：https://arxiv.org/pdf/2607.01120

AReaL 2.0的同类竞品对比

对比维度	AReaL 2.0	OpenRLHF
产品定位	Agent在线RL基础设施，面向服务侧持续演进	通用LLM RLHF训练框架，面向模型后训练
数据来源	真实部署环境中的在线会话轨迹	离线构建的偏好数据集和仿真环境
接入方式	微服务化，低侵入切换推理后端即可接入	需重构训练流程，适配特定模型结构
数据治理	内置企业级Data Proxy，训练前完成脱敏与权限控制	需额外搭建数据清洗和治理流程
架构设计	Gateway-Router-Worker微服务解耦，支持会话保持和横向扩展	集中式训练架构，侧重分布式计算效率
适用场景	已上线的Agent从真实交互中持续自我改进	新模型的RLHF后训练与对齐优化

AReaL 2.0的应用场景

软件工程智能体：训练Coding Agent从真实issue修复、代码审查和PR生成中持续改进策略，如Claude Code类Agent的端到端RL训练。
企业客服助手：从用户对话、满意度反馈和人工修正中优化回复策略、工具调用路径和知识检索准确性。
科研实验助理：记录文献检索、实验设计、数据分析的完整轨迹，优化多工具编排和跨平台操作能力。
复杂任务调度Agent：在多轮交互、多工具调用的工作流中，持续改进工具选择、路由策略和错误恢复机制。
多租户SaaS智能体：为不同业务线、不同权限边界的Agent提供隔离的轨迹采集和定制化在线学习服务。

AReaL 2.0是什么

AReaL 2.0的主要功能

在线RL闭环：将Agent真实交互轨迹自动转化为可训练经验，实现从执行到学习的闭环。

轨迹数据采集：通过ATDP协议以步骤为单位记录完整决策过程，包括观察、动作、结果和元数据。

企业级数据治理：Data Proxy负责拦截、脱敏、权限控制和轨迹持久化，确保训练前完成合规处理。

演进控制平面：根据轨迹统计、失败簇、用户修正率等多维信号，判断模型更新、记忆写入或工具调整等修复入口。

微服务化架构：将训练、推理、权重更新拆分为Gateway、Router、Data Proxy等可独立部署的组件。

AReaL 2.0的技术原理

Agent Trajectory Data Protocol (ATDP)：面向学习的智能体轨迹协议，将复杂任务拆分为可追责、可回放的学习样本。以步骤为单位记录Agent的观察、内部状态、动作选择、动作结果、奖励反馈以及模型版本、工具版本、租户、成本等元数据，回答”哪次检索、哪个工具调用影响了任务成败”等关键问题。

Agentic Data Proxy：部署在模型、工具、检索系统、人类反馈渠道等关键边界上的学习数据层。负责拦截、采集、脱敏、权限控制、轨迹持久化、奖励收集和回放管理。数据进入训练队列前即完成治理，区分可见字段、训练资格数据和仅用于调试审计的数据。

Agent Evolution Control Plane：智能体演进控制平面，将”是否更新、更新哪里”变成可治理的系统性决策。根据轨迹统计、用户修正率、工具失败簇、评估器得分、成本信号、安全约束和分布漂移，判断演进应落在模型RL、偏好优化、记忆写入还是工具路由调整层面，并支持回放评估、回归测试、灰度发布和版本化追踪。

Online RL微服务运行时：将原有RL基础设施改造为承接Agent服务流量的在线系统。Gateway作为入口承接请求；Router维护会话与Data Proxy的绑定关系，保证多轮交互上下文连续；Data Proxy管理会话状态和轨迹；Agent-Compute Worker执行推理、采样和训练计算；Controller负责调度、扩缩容和健康检查。

微信关注回复“开源”，加入AI开源项目交流群

如何使用AReaL 2.0

访问项目主页：打开GitHub仓库 https://github.com/areal-project/AReaL 获取源码和文档。

安装基础设施：部署AReaL 2.0的Gateway、Router、Data Proxy和Controller等微服务组件。

切换推理入口：将现有Agent的LLM API调用后端（base_url/api_key）指向AReaL 2.0管理的Gateway。

配置轨迹协议：启用ATDP，以步骤为单位记录Agent的观察、动作、工具调用和结果。

部署数据代理：配置Data Proxy完成数据拦截、脱敏、权限控制和轨迹持久化。

启动训练闭环：将采集的真实轨迹导入训练服务，启动在线RL，让Agent从交互中持续学习。

AReaL 2.0的核心优势

低侵入式接入：只需切换LLM推理后端，无需重写Agent的规划、工具调用、沙箱或记忆模块。

真实轨迹驱动：直接用线上真实交互数据训练，弥合离线仿真环境与实际行为之间的差距。

企业级安全治理：数据脱敏、权限控制和合规边界在训练前完成，适配多租户、多业务线场景。

可解释可回滚：每次演进经过回放评估、回归测试和版本化追踪，出问题可快速退回。

开源生态丰富：已加入PyTorch基金会，社区提供昇腾NPU适配和LoRA低算力方案。

AReaL 2.0的同类竞品对比

对比维度

AReaL 2.0

OpenRLHF

产品定位

Agent在线RL基础设施，面向服务侧持续演进

通用LLM RLHF训练框架，面向模型后训练

数据来源

真实部署环境中的在线会话轨迹

离线构建的偏好数据集和仿真环境

接入方式

微服务化，低侵入切换推理后端即可接入

需重构训练流程，适配特定模型结构

数据治理

内置企业级Data Proxy，训练前完成脱敏与权限控制

需额外搭建数据清洗和治理流程

架构设计

Gateway-Router-Worker微服务解耦，支持会话保持和横向扩展

集中式训练架构，侧重分布式计算效率

适用场景

已上线的Agent从真实交互中持续自我改进

新模型的RLHF后训练与对齐优化

AReaL 2.0的应用场景

软件工程智能体：训练Coding Agent从真实issue修复、代码审查和PR生成中持续改进策略，如Claude Code类Agent的端到端RL训练。
企业客服助手：从用户对话、满意度反馈和人工修正中优化回复策略、工具调用路径和知识检索准确性。
科研实验助理：记录文献检索、实验设计、数据分析的完整轨迹，优化多工具编排和跨平台操作能力。
复杂任务调度Agent：在多轮交互、多工具调用的工作流中，持续改进工具选择、路由策略和错误恢复机制。
多租户SaaS智能体：为不同业务线、不同权限边界的Agent提供隔离的轨迹采集和定制化在线学习服务。

All Categories

AReaL 2.0是什么

AReaL 2.0的主要功能

AReaL 2.0的技术原理

如何使用AReaL 2.0

AReaL 2.0的核心优势

AReaL 2.0的项目地址

AReaL 2.0的同类竞品对比

AReaL 2.0的应用场景

AReaL 2.0是什么

AReaL 2.0的主要功能

AReaL 2.0的技术原理

如何使用AReaL 2.0

AReaL 2.0的核心优势

AReaL 2.0的项目地址

AReaL 2.0的同类竞品对比

AReaL 2.0的应用场景