news 2026/6/23 21:41:15

DeepMind再登Nature:AI Agent造出了最强RL算法!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!

原创 学术头条 学术头条2025年10月27日 18:46北京

人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。

针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法。

在大型实验中,DiscoRL 不仅在 Atari 基准测试中超越所有现有规则,更在未曾接触过的挑战性基准测试中超越人工设计,击败了多项主流 RL 算法。相关研究论文已发表在权威科学期刊Nature上。

论文链接:https://www.nature.com/articles/s41586-025-09761-x

这表明,未来用于构建高级 AI 的 RL 算法,可能不再需要人工设计,而是能够由智能体自身的经验自动发现。

Agent 「凭啥」自主发现 RL 算法?

据论文描述,他们的发现方法涉及两种优化:智能体优化与元优化。

智能体参数通过更新其策略预测来优化,使其趋向于 RL 规则生成的目标。同时,通过更新 RL 规则的目标来优化其元参数,从而最大化智能体的累积奖励

图|智能体自主发现RL 算法的全过程:(a) 发现过程:多个智能体在不同环境中并行交互与训练,遵循由元网络定义的学习规则;元网络在此过程中不断优化,以提升整体表现;(b) 智能体结构:每个智能体输出策略(π)、观测预测(y)、动作预测(z)、动作价值(q)与辅助策略预测(p),其中 y 与 z 的语义由元网络确定;(c) 元网络结构:元网络接收智能体的输出轨迹及环境奖励与终止信号,生成针对当前与未来时刻的目标预测;智能体据此最小化预测误差进行更新;(d) 元优化过程:通过对智能体更新过程的反向传播计算元梯度,优化元参数,以最大化智能体在环境中的累计回报。

在智能体优化方面,研究团队使用Kullback–Leibler 散度衡量两者之间的差距,以确保训练过程的稳定性与普适性。智能体会输出策略、观测预测和动作预测三类结果,元网络为其生成相应的学习目标。智能体再根据这些目标更新自身,从而逐步改进策略。同时,模型还引入了一个辅助损失,用于优化预定义的动作价值与策略预测,使学习过程更稳定、更高效。

在元优化方面,研究团队让多个智能体在不同环境中独立学习,元网络则根据它们的整体表现计算元梯度,并调整自身参数。智能体的参数会定期重置,使学习规则能在有限时间内迅速提升表现。元梯度的计算结合了智能体的更新过程与标准强化学习目标的优化,具体由反向传播与优势行动者-评论家(A2C)算法完成,并配合一个专用于元学习阶段的价值函数进行评估。

最强 RL 算法,AI 造

为验证 DiscoRL,团队评估时采用四分位数平均值(IQM)作为综合性能指标,该指标基于多任务基准测试的标准化分数,已被证实具有统计学可靠性。

1.Atari 实验

Atari 基准测试是强化学习领域最具代表性的评估标准之一。为验证算法自动发现的能力,团队基于 57 款 Atari 游戏元训练出 Disco57 规则,并在相同游戏中评估。

评估时使用与 MuZero 相当规模的网络架构,结果显示,Disco57 的 IQM 达到 13.86,在 Atari 基准上超越了包括MuZero、Dreamer 在内的所有现有强化学习规则,并且在实际运行效率(wall-clock efficiency)上显著优于最先进的 MuZero。

图|Disco57 在 Atari 实验中的评估结果。横轴表示环境交互步数(以百万为单位),纵轴表示在基准测试中 IQM 得分。

2.泛化能力

研究团队进一步评估了 Disco57 的通用性,在多个它从未见过的独立基准测试上进行测试。在 16 个 ProcGen 二维游戏上,Disco57 超越了包括 MuZero 和 PPO 在内的所有已发表方法;在 Crafter 基准测试中也表现出竞争力;在 NetHack NeurIPS 2021 挑战赛中获得第三名,且未使用任何领域特定知识。对比在相同设置下训练的 IMPALA 智能体,Disco57 明显更高效。此外,它在网络规模、重放比例和超参数调整等多种设置下也表现鲁棒。

图|Disco57 在 ProcGen、Crafter、 NetHack NeurIPS 中的评估结果。

3.环境的复杂性和多样性

研究团队基于 Atari、ProcGen 和 DMLab-30 三个基准,共 103 个环境,发现了另一种 RL 规则 Disco103。

Disco103 在 Atari 基准上的表现与 Disco57 相当,尤其是在 Crafter 基准上达到了人类水平的表现,并在 Sokoban 上接近了 MuZero 的最先进性能。

这些结果表明:用于发现的环境越复杂、越多样,所发现的强化学习规则就越强大、越具泛化能力,即使是在训练过程中从未见过的环境中也能保持出色表现。

图|Disco103 与 Disco57 在相同测试中的对比结果。蓝线(Disco57)表示在 Atari 基准上发现的规则,橙线(Disco103)表示在 Atari、ProcGen 和 DMLab-30 基准上共同发现的规则。

4.高效率和稳定性

研究团队对多个 Disco57 的版本进行了评估。最优表现是在每个 Atari 游戏约 6 亿步内被发现,相当于在 57 个 Atari 游戏上进行 3 轮实验,这相比传统的人工设计 RL 规则要高效得多——后者往往需要更多实验次数,以及大量研究人员的时间投入。

此外,随着用于实验的 Atari 游戏数量增加,DiscoRL 在未见过的 ProcGen 基准上的表现也随之提升,这表明所发现的 RL 规则能够随着参与实验的环境数量与多样性的增加而得到扩展。换句话说,所发现 RL 的性能取决于数据(即环境)与计算量。

图|DiscoRL 最佳规则在每款游戏约6亿步内被发现;随着用于发现的训练环境数量的增加,DiscoRL 在未见过的 ProcGen 基准测试上的性能也变得更强。

研究团队表示,未来高级 AI 的 RL 算法设计,可能将由能高效扩展数据与计算能力的机器主导,不再需要人类设计。

这一发现或许令人振奋但又引发担忧,一方面它带来了学术领域的新潜力,另一方面,当前社会并未做好迎接这项技术的准备。

整理:潇潇

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 16:59:25

模型漂移的检测与应对:软件测试者的实战手册

当AI模型开始"失准"——测试工程师的新挑战 一、认识模型漂移:从静态测试到动态监控的范式转移 在传统软件测试中,我们习惯于对确定性的输入输出进行验证。但当系统引入机器学习模型后,我们面临的全新问题是:模型性能…

作者头像 李华
网站建设 2026/6/23 1:43:55

金融科技的智能风控测试

引言:智能风控测试的时代挑战 随着深度学习与大数据技术在金融风控领域的深度应用,传统基于规则引擎的测试方法已难以满足新一代智能风控系统的质量保障需求。测试工程师面临模型动态更新、数据维度多元、决策链路隐蔽等全新挑战,亟需建立适…

作者头像 李华
网站建设 2026/6/23 16:54:39

Open WebUI重排序终极指南:三步提升搜索精准度90%

Open WebUI重排序终极指南:三步提升搜索精准度90% 【免费下载链接】open-webui Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI,设计用于完全离线操作,支持各种大型语言模型(LLM)运行器,包括O…

作者头像 李华
网站建设 2026/6/23 7:39:54

测试预算的动态优化:从静态规划到敏捷响应

在当今快速迭代的软件开发环境中,测试预算管理不再仅仅是年初的固定分配,而是一个需要持续调整的动态过程。软件测试从业者面临着诸多挑战:项目需求频繁变更、新技术工具涌现、测试环境成本波动,以及市场竞争对质量的更高要求。静…

作者头像 李华
网站建设 2026/6/23 16:59:33

【树莓派pico/pico2】在pico-sdk中自定义板子

一、前言树莓派pico/pico2是树莓派推出的基于自家MCU(RP2040、RP2350)的核心板。现已有很多基于RP2040和RP2350芯片的各类核心板和开发板,也有用户自己制作的板子。如果用户使用的板子,其引脚定义、Flash配置和树莓派pico/pico2相…

作者头像 李华
网站建设 2026/6/23 5:25:09

【Java + Elasticsearch全量 增量同步实战】

Java Elasticsearch 全量 & 增量同步实战:打造高性能合同搜索系统在企业合同管理系统中,我们常常遇到以下挑战:合同量大,文本内容多,传统数据库查询慢搜索需求多样:全文搜索、按签署人筛选、分页排序历…

作者头像 李华