文 / Google Research 团队 Natasha Jaques 和加州大学伯克利分校 Michael Dennis
任何机器学习方法的有效性都主要取决于其训练数据。对于是强化学习 (RL),我们可以通过智能体 (Agent) 与 现实世界互动 收集的有限数据,也可以根据需要依赖于模拟训练环境收集尽量多的数据。后一种模拟训练方法越来越受欢迎,但也存在一个问题,即强化学习智能体可以学习模拟器中内置的内容,但往往在与之模拟的任务稍有不同内容的泛化时表现不佳。显然,想构建一个涵盖现实世界所有复杂性的模拟器是非常具有挑战性的。
一种解决此问题的方法是通过随机化模拟器的所有参数来自动创建更多样化的训练环境,这一方法称为域随机化 (Domain Randomization)。但是,即使在非常简单的环境中,域随机化也有可能失效。例如,在下方动画中,蓝色智能体正在尝试导航到绿色目标。左侧面板显示的是使用域随机化创建的环境,其中障碍物和目标的位置均已随机化。在很多此类域随机化环境中训练智能体,然后将其转移到简单的“四个房间”环境中,如中间面板所示。请注意,此时智能体找不到目标。这是因为它还没有学会围绕墙壁行走。即使域训练阶段 可能 已经随机 化生成“四个房间”示例中的墙壁配置,智能体也不太可能学会。因此,智能体没有在类似于“四个房间”结构的墙壁上花费足够的时间来训练,并且无法找到目标。
域随机化(左)无法有效地让智能体做好准备,使其转移到以前未接触过的环境,例如“四个房间”场景(中)。为解决这个问题,我们使用了极小化极大对抗来构建以前未接触过的环境(右),但可能导致产生一些无法解析的情况
我们不仅可以随机化环境参数,还可以学习如何设置环境参数来训练第二个强化智能体。经训练该 极小化极大对抗者 可通过发现和利用第一个强化智能体的策略弱点,例如构建智能体以前从未遇到过的墙壁配置,从而最大程度地降低其表现水平。但这同样也存在一个问题。右侧面板中展示了一个由极小化极大对抗者所构建的环境,在该环境中,智能体实际上不可能找到目标。虽然极小化极大对抗者已成功完成最大限度地降低了原始智能体的表现水平的任务,但它没有为智能体提供任何学习的机会。同样,使用纯粹的对抗目标也不太适合生成训练环境。
我们与加州大学伯克利分校合作,提出了一种新的多智能体方法,用以训练“《通过无监督环境设计实现紧急复杂性和零次迁移》(Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design)”一文中提到的对抗者,该论文近期已在 NeurIPS 2020 上发表。在这篇论文中,我们提出了一种基于极小化极大后悔原则的算法,即“主角反派诱导的后悔环境设计(PAIRED)”,它可以避免对抗者创建无法解析的环境,同时仍然支持它来纠正智能体策略中的弱点。PAIRED 激励对抗者将所生成环境的难度调整为超出智能体当前的能力,从而致使自动课程中训练任务的挑战性越来越大。我们发现,受过 PAIRED 训练的智能体可以学习更复杂的行为,并且可以更好地泛化到未知的测试任务。我们已经在 GitHub 代码库 上发布了 PAIRED 的开源代码。
PAIRED
为了灵活约束对抗者,PAIRED 引入了第三方强化学习智能体,我们将其称为反派 (Antagonist) 智能体,因为它将与对抗者智能体(即设计环境的智能体)结盟。然后我们将初始智能体重命名为主角 (Protagonist),负责导航环境。对抗者构建环境后,主角和反派都会在该环境中进行训练。
对抗者的任务是使反派的奖励最大化,而最大限度减少对主角的奖励。这意味着它必须创建可行(Feasible) (因为反派可以解析这些环境并获得高分)但对主角具有挑战性(利用其当前策略弱点)的环境。两种奖励之间的差距即后悔值 (Regret)— 对抗者尽力最大化后悔值,而主角则通过竞争使其后悔值降至最低。
我们也可以使用相同的理论框架:无监督环境设计 (UED) 来分析上述方法(域随机化,极小化极大后悔原则和 PAIRED),稍后我们将在本文中对其进行详细介绍。UED 为环境设计和决策理论建立了联系,使我们能够证明域随机化等同于不充分推理原则,极小化极大对抗者遵循最大原则,而 PAIRED 正在优化极小化极大后悔原则。这一形式使我们能够运用决策理论中的工具来了解每种方法的优缺点。下面,我们逐一介绍了此类构想在环境设计中的应用:
域随机化 (a) 会生成非结构化的环境,此类环境并非针对智能体的学习进度而定制。极小化极大对抗者 (b) 可能会创建不可行的环境。PAIRED (c) 可以生成具有挑战性的结构化环境,智能体仍然有可能在该环境下完成目标
课程生成
极小化极大后悔原则的有趣之处在于,它可以激发对抗者的兴趣,使其生成最初简单易学的课程,然后逐步增加环境的挑战性。在大多数强化学习环境中,奖励函数会对于完成任务效率更高或使用的时间步更少的情况给出高分。在这样的设定下,我们可以证明,后悔原则可激励对抗者创建出 主角尚无法解析的最简单的环境。为此,让我们假设反派是完美的,并且始终能够获得它可获得的最高分。同时,主角的情况很糟糕,所有任务均得零分。在此情况下,后悔值将仅取决于环境的难度。由于环境越简单,所花费的时间步越少,因此它们允许反派获得更高的分数。正因如此,在简单环境中失败的后悔值将大于在艰难环境中失败的后悔值:
所以,通过最大化后悔值,对抗者将搜索主角会失败的简单环境。当主角学会解析每种环境后,对抗者必须继续搜索,找到主角无法解析的难度更高一些的环境。这样一来,对抗者可生成一个包含难度递增的任务课程。
结果
我们可以看到下方的学习曲线中生成的课程,这些曲线绘制了智能体已成功解析的迷宫的最短路径的智能体。与极小化极大算法或域随机化不同,PAIRED 对抗者创建的课程越来越长,但可能会变成迷宫,使 PAIRED 智能体能够学习更复杂的行为。
但是,这些不同的训练计划能否帮助智能体更好地泛化到其他未知的测试任务呢?下面,我们将看到每种算法在一系列具有挑战性的测试任务上的零次迁移表现。随着迁移环境复杂性的增加,PAIRED 和基准之间的表现水平差距会扩大。对于像螺旋形迷宫和矩形迷宫这样的极其困难的任务,PAIRED 是唯一有机会解决任务的方法。这些结果提供了有力的证据,表明 PAIRED 可用于改善深层强化学习的泛化。
当然,这些简单的网格世界并不能反映许多强化学习方法解决的现实世界任务的复杂性。我们在“《用于学习 Web 导航的对抗环境生成》(Adversarial Environment Generation for Learning to Navigate the Web)”一文中解决了这一问题。该文研究了 PAIRED 应用于更复杂问题时的表现水平,例如,教导强化学习智能体导航网页。我们提出了 PAIRED 的改进版本,并展示了如何使用它来训练对抗者以生成包含挑战性日益增加的网站的课程:
在上方,您可以看到对抗者在早期、中期和后期训练阶段建立的网站,这些网站从每页使用少量元素增加为同时使用多种元素,从而使任务难度逐步提升。我们测试在此课程上进行训练的智能体是否可以泛化到标准 Web 导航任务,结果成功率达到 75%,相比难度最高的课程学习基准提高了 4 倍:
结论
深度强化学习非常适合模拟训练环境,但是我们如何创建涵盖现实世界复杂性的模拟环境呢?一个解决方案是,使流程自动化。我们提出将无监督环境设计 (UED) 作为框架。该框架描述了自动创建训练环境分布的不同方法,并证明 UED 包含了先前的工作,例如域随机化和极小化极大对抗者训练。我们认为 PAIRED 是 UED 的一种好方法,因为最大化后悔值可促使课程设置越来越具有挑战性,使得智能体做好准备,成功迁移到未知的测试任务。
致谢
在此感谢“《通过无监督环境设计实现紧急复杂性和零次迁移》(Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design)”的合著者:Michael Dennis、Natasha Jaques、Eugene Vinitsky、Alexandre Bayen、Stuart Russell、Andrew Critch 和 Sergey Levine,以及 “《用于学习 Web 导航的对抗环境生成》(Adversarial Environment Generation for Learning to Navigate the Web)”合著者:Izzeddin Gur、Natasha Jaques、Yingjie Miao、Jongwook Choi、Kevin Malta、Manoj Tiwari、Honglak Lee,Aleksandra Faust。此外,我们还要感谢 Michael Chang、Marvin Zhang、Dale Schuurmans、Aleksandra Faust、Chase Kew、Jie Tan、Dennis Lee、Kelvin Xu、Abhishek Gupta、Adam Gleave、Rohin Shah、Daniel Filan、Lawrence Chan、Sam Toyer、Tyler Westenbroek、Igor Mordatch、Shane Gu、DJ Strouse 和 Max Kleiman-Weiner 积极参与讨论,为本文做出贡献。
原文:PAIRED: A New Multi-agent Approach for Adversarial Environment Generation
中文:谷歌开发者公众号