智能体时代的强化学习：AReaL框架与Agent最佳实践

以 RL 打造 Agent

两个核心”暴论”

Agent是未来五年AGI时代最重要的事。
强化学习是构建Agent最关键的技术。

强化学习的历史发展与突破

强化学习的早期认知

大多数人对强化学习的认知来源于：

AlphaGo：DeepMind用强化学习训练围棋智能体，击败李世石和柯洁
OpenAI打Dota：2019年用强化学习击败两届世界冠军OG
其他游戏AI：腾讯打王者荣耀、星际争霸等

当年的强化学习智能体主要都是打游戏的，与大模型驱动的AGI时代似乎没有太大关系。

强化学习与大模型的结合转折点

2020-2022年的关键变化

GPT-3 API的问题：

2020年OpenAI推出GPT-3 API时存在严重问题
例子：输入”explain the moon landing to a six year old in a few sentences”
GPT-3会输出重复内容：”explain the serious gravity, explain the serious relative, explain blah blah blah”
原因：大模型训练基于next token prediction，但用户给的是指令（instruction following problem）

注: “Next Token Prediction”（下一个 token 预测）是大语言模型（LLM）的核心机制。简单来说，它的意思是：给定一段文本的前面部分，模型预测接下来最可能出现的“token”是什么。

RLHF技术的突破：

OpenAI花了两年时间解决这个问题
2022年推出InstructGPT，采用RLHF（Reinforcement Learning from Human Feedback）技术
方法：找人标注数据，判断哪些回答遵从指令，哪些不遵从
训练奖励模型，然后用强化学习让模型探索获得最高分数的回答
结果：同样的基座模型，有没有强化学习决定了好用还是不好用

注: RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种用于对齐大语言模型（LLM）的技术。它的核心目标是：让模型的输出更符合人类的偏好、价值观和意图，而不仅仅是“语法正确”或“统计上常见”。

强化学习推动AGI产品发展的三个阶段

第一阶段：2022年ChatGPT
- 由RLHF技术引爆，让大家第一次感受到AGI能力
- 强化学习捅破了窗户纸，让AGI能力真正可用
第二阶段：2024年推理模型（Reasoning Model）
- 也称为思考模型（Thinking Model）
- 特点：给模型一个问题后，它会先想一会，输出大量thinking token
- 例子：帮我算个24点，思考模型(比如 deepseek)会先在”草稿纸”上写10分钟(输出thinking token)，然后给答案
- 技术：也是强化学习驱动，模型自己探索如何思考, 思考什么，自己判断答案对不对, 也就产生了推理模型
- 训练范式与RLHF类似，但判断标准可能不同
第三阶段：2025年Agent模型
- 基于Agent的强化学习技术
- 代表产品：ChatGPT Deep Research 等

Agent产品的发展与特点

成功的Agent产品案例

ChatGPT Deep Research
- 2024年第一个比较成功的Agent产品
- 功能：给它一个topic，帮你做研究
- 工作流程：
  - 花很多时间思考
  - 调用工具，在网上搜索很多topic
  - 可能运行20分钟到1小时
  - 最终给出非常详实、有大量引用和reference的报告
Manus /ChatGPT Agent / Kimi Agent Mode
- 功能更丰富，可以帮你做PPT
- 在Sandbox（沙盒）环境中工作：
  - 读取PDF文件
  - 在阅读器中打开PDF
  - 存储PDF文件
  - 编辑和创建文件
  - 在虚拟机中进行各种操作

Agent能力的演进

从Deep Research到Manus的发展体现了Agent能力的进步：

Deep Research：除了对话，可以调用搜索工具、浏览器工具，将信息放在Context Window中处理
Manus：更进一步，加上了Sandbox工程AI，相当于有了自己的电脑

AI的能力演进：

有了脑子（大模型）
有了草稿纸和笔（Context Window）
有了一台自己的电脑（Sandbox）

产品发展趋势分析

用户交互的变化
- ChatGPT时代：需要很长的prompt，详细描述要做什么
- Agent时代：用户说的话越来越抽象，越来越少
AI能力的变化
- ChatGPT：1秒钟给出文本输出
- Thinking Model：1-2分钟思考后给出答案
- Agent Model：1小时处理复杂任务，主动行动
- 未来: 牛马 AI, AI一直在做事, 主动帮人安排
从Reactive到Proactive的转变
- 传统模式：用户告诉AI做什么（Reactive）
- 未来趋势：AI主动准备，告诉用户要不要（Proactive）
- 例子：OpenAI的ChatGPT Plus每天主动推送早报等内容

未来愿景

理想的AI助手具体技术化来讲：

信息模糊处理：人很难把想做的事讲清楚
个性化：每个人的需求不一样
主动规划：主动安排和执行任务
提前工作：AI不需要休息，可以一直工作

什么是好的 Agent 团队

组织 AI 化
技术栈完整
持续高速0-1 创新, 高效迭代

为什么Agent需要RL(强化学习)

市面上Agent 有各种 framework, 这些框架主要通过拖拉拽的方式构建Agent工作流，但对于复杂的Agent问题存在局限性。

强化学习解决的三大核心问题

问题一：处理不确定性和冲突信息

案例：阿里CTO是谁？
- 阿里和蚂蚁有很多子公司，每个公司都有CTO
- 搜索”蚂蚁CTO”会得到很多不同的结果
- 需要AI去理解和判断才能做出正确回答
案例：退票问题
- 用户说”退票”，但上下文可能很不确定
- 退什么票？需要AI主动提问澄清

问题二：长期记忆和个性化

案例：美团小美推荐
- 我说”要吃晚饭，要清淡点”
- AI推荐白灼生菜等蔬菜
- 但我从来不点蔬菜，喜欢吃肉
- “清淡点”对我可能意味着”清淡点的肉”
- 需要从很长的记录中挖掘个性化信息

问题三：海量工具和模型选择

案例：Reddit上的模型组合使用
- Claude写代码很聪明但Context Window短且贵
- Gemini写代码不够聪明但Context Window长且便宜
- 用户发现可以用Claude调用Gemini：让Gemini读代码，然后扔给Claude写
- 相当于”聪明的人指挥体力无限的傻子干活”
- 这种最佳实践应该由AI自己探索出来，而不是人工定义规则

强化学习的统一解决方案

强化学习可以用统一的框架解决这些复杂问题：

让AI在环境中自己探索
涌现出处理复杂任务的能力
比规则和Workflow更灵活和强大

搜索智能体案例深度分析-看似简单的问题实际很复杂

问题案例：伦敦奥运会中国金牌数

表面上的简单：

问题：伦敦奥运会中国拿多少块金银铜牌？
看起来很简单，百度搜索就能找到答案
官网显示：中国队拿了38块金牌，是2012年历史第二高的成绩

实际的复杂性：

正确答案应该是39枚金牌
原因：2012年伦敦奥运会女子田径竞走项目
中国派出三位选手，当时拿了第3、4、5名
后来第1、2名被查出禁药，被剥夺奖牌资格
11年后（2023年），中国选手获得了补发的金牌
所以现在问中国奥运会金牌数，答案应该是39枚

现有产品的表现
测试了多个产品：

DeeSeek：搜出38枚金牌
ChatGLM：38枚金牌
ChatGPT：搜到了39枚金牌的信息，说”有一些资料显示数字略有差异，39枚金牌”，但最后结论还是38枚金牌（因为大量信息都是38枚）
ChatGPT Agent Mode：会答对

传统方法vs强化学习方法

传统Multi-Agent System方法

需要构建复杂的多智能体系统：

搜索Agent
核查Agent
调用知识的Agent
检验Agent
需要很长很复杂的流程

强化学习方法

极简设计：

一个模型
两个工具：搜索工具 + 点击网页工具
让模型在环境中循环探索

实际效果：

第5轮搜到39枚金牌的新闻
开始疯狂核查
经过60多轮迭代
最终确定正确答案是39枚金牌
还具有泛化能力，可以添加更强的工具
32B模型可以在准确度上超越商用产品

强化学习的两大优势

简单: 简化Agent的workflow, 不需要复杂的多智能体系统设计
涌现: 让AI涌现出复杂的多步推理能力, 通过探索自动获得复杂能力

Agent RL 的核心难点

强化学习面临的三大挑战

要做好强化学习，必须解决三个问题：

缺Infra和算法：强化学习算法运算速度很慢很慢
缺数据：训练数据的获取和质量, 强化学习的数据是很缺很缺德, 预训练数据可以在网上扒, 但强化学习的数据不太能直接网上扒
缺环境：Sandbox等执行环境的构建

如何全栈解决 Agent RL 的难点

Infra(基础设施)和算法优化

速度慢的根本原因

强化学习的三个流程：

生成：让模型在环境中交互生成数据
评分：用奖励模型计算奖励
训练：放到训练集中训练

复杂性分析：

涵盖了三种完全不同的计算模块
预训练只有训练，SFT只有训练，评测只有评测
强化学习包含：训练、评测、在线生成、Sandbox等
是一个算法编排了多种完全不同计算模式的复杂系统

算法与系统协同设计的重要性

为什么需要协同设计：

强化学习算法创新很容易碰到系统瓶颈
四个系统模块(推理/训练/环境/算法整合)中任何一个打满都会成为瓶颈
强化学习算法很容易打到系统瓶颈

团队组织建议：

做算法的同学需要了解Infra
做Infra的同学需要了解算法
最好能坐在一起工作, 这是加快创新节奏的重要方式

具体的性能瓶颈

搜索智能体的统计数据：

平均搜索时间：要调用 google 搜索引擎, 一个batch 5-10分钟
长尾效应严重：特别难的prompt需要1-2小时
问题：如果每个batch都要等最慢的那个，一天24小时只能更新12-24次
导致大量CPU/GPU等待时间

AReaL的解决方案：异步架构

核心思想：推理不能等

一部分卡不停地做推理，没有等待
训练也没有等待，有数据就训练
中间用随时更新参数的方式
如果推理到一半需要更新参数，就停下来更新，然后用新参数继续rollout
实现完全没有系统资源浪费

技术创新：

系统上做异步调整
算法上做相应调整以适应异步更新
在Agent场景上实现5倍加速，且没有效果损失

训练数据问题

数据稀缺的问题

预训练可以直接从网上获取数据
强化学习的训练数据不能直接从网上获取
一般问题都跟简单, 用户提出的复杂问题很少，难以挖掘复杂问题的测试集

数据合成解决方案

Agenic合成数据方法：

从网页上获取答案（搜索比较简单，从答案开始）
从答案构造问题
不断让问题变得更加复杂
评估问题，保证问题和答案匹配正确
难度检查：问题不能太难也不能太简单，需要适合强化学习自我提升的难度
构造出适合的训练数据

开源贡献：

数据、代码和脚本都已开源
帮助社区训练更好的Agent产品

环境构建 - Aworld 项目

主要是Sandbox等执行环境的构建
未来会开源更多的Sandbox项目
帮助大家训练更好的Agent产品

让更多人用 RL 训练更好的 Agent

AReaL团队发展历程与经验总结

团队发展时间线

2020年：开始做开源学术项目，多智能体强化学习框架
2022年：第一个大规模游戏场景可用的强化学习分布式训练框架
2023年：当时最快的RLHF框架
2024年：开始做AReaL，专注Agent AI

技术循环的有趣观察

回到原点的循环：

2025年的强化学习与当年打游戏很像
有个大模型在”玩游戏”（Sandbox可以是浏览器或电脑）
遇到的问题与打游戏类似：有黑盒环境，很慢，不能修改游戏规则
五年后技术回到了当年的原点
系统设计和算法技术都有循环

重要的经验教训

技术需要两个条件才能发挥价值：

技术需要对的时间
- 强化学习如果在2022年以前，大家很难感知到价值
- 不是大家的错，而是技术没有在对的时间被感知
技术需要好的产品承载
- 强化学习技术如果不是因为ChatGPT、RLHF、Agent model，大家可能也感知不到
- 技术本身可能没有价值，需要好的产品去承载才能发挥更大价值

团队理念：

技术一定要产品化, 所有技术同学都应该尽可能把技术产品化
希望创造能够实现AGI的Agent产品, 成为支持产品持续进化的平台

总结与展望

核心观点回顾

Agent是AGI时代最重要的事情：从产品发展趋势和技术演进可以看出Agent的重要性
强化学习是Agent的最关键技术：能够统一解决Agent面临的复杂问题，让AI涌现出复杂能力

技术发展趋势

从简单的对话模型到能够主动行动的Agent
从Reactive到Proactive的转变
从规则驱动到强化学习驱动的智能涌现
算法与系统协同设计的重要性日益凸显

未来展望

Agent产品将越来越智能和主动
强化学习技术将在Agent领域发挥更大作用
需要更好的基础设施、数据和环境支持
技术产品化是实现价值的关键路径