发布人:Google Research,Brain 团队研究员 Rishabh Agarwal
强化学习 (RL) 是一种顺序决策范例,用于训练智能体来处理复杂的任务,例如 机器人运动、玩视频游戏、放飞平流层气球 以及 设计硬件芯片 等。
虽然 RL 智能体已经在各种活动任务中呈现出很好的结果,但很难将这些智能体的能力转移到新的任务中,即便这些任务在语义层面上是等同的。例如,在跳跃任务中,智能体需要从图像观察中学习如何跳过一个障碍物。在用于训练 Deep RL 智能体的一些任务中,障碍物位置是变化的,此时若障碍出现在先前没有见过的位置上,则这类智能体很难成功地跃过。
跳跃任务:智能体(白块),从像素中学习如何跳过一个障碍物(灰色方块)。本任务的挑战在于,如何在测试任务中使用少量的训练任务来泛化未见过的障碍物位置和离地高度。在指定的任务中,智能体需要在离障碍物一定距离时准确地确定跳跃的时间,否则会撞到障碍物
在发表于 ICLR 2021 的 “强化学习中泛化的对比性行为相似性嵌入向量 (Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning)”一文中,我们将 RL 中固有的顺序结构纳入表征学习过程,以增强对未见过的任务的泛化。这与之前的主流方法不同,主流方法通常是由监督学习 (Supervised learning) 改编而来,因此在很大程度上忽略了这里提及的顺序方面。而我们的方法则利用了这样一个事实:智能体在具有相似根本方法的任务中进行操作时,至少会在这些任务中表现出类似的短序列性的行为。
之前关于泛化的研究通常是由监督学习改编而来,并主要围绕加强学习过程。这些方法很少利用序列方面的属性,例如时间观察中操作的相似性
我们的方法是训练智能体学习一种表征,智能体在某些状态下的最佳行为和未来状态接近时,这些状态就是相似的。这种接近的概念,我们称之为 行为相似性,可以泛化至不同任务中的观察结果。为了衡量不同任务的状态之间的行为相似性(例如,跳跃任务中不同的障碍物位置),我们引入了 策略相似性指标 (PSM),这是一个在理论层面驱动的状态相似性指标,受 互模拟 的启发而成。例如下图所示,智能体在两个视觉上不同的状态下,未来操作是相同的,因此,根据 PSM,这些状态就是相似的。
了解行为相似性。智能体(蓝色图标)需要在远离危险图标的情况下取得奖励。即便初始状态在视觉上是不同的,但就其在当前状态以及紧接着的未来状态下的最佳行为而言,它们是相似的。策略相似性指标 (PSM) 将高相似度分配给这种行为上相似的状态,将低相似度分配给不相似的状态
为了提升泛化程度,我们的方法学习了状态嵌入向量,对应基于神经网络的任务状态表征,将行为上相似的状态聚集在一起(如上图),同时将行为上不相似的状态分开。为此,我们提出了对比性指标嵌入向量 (CMEs),利用 对比性学习 的优势来学习基于状态相似性指标的表征。我们将对比性嵌入向量与策略相似性指标 (PSM) 进行实例化,用来学习策略相似性嵌入向量 (PSEs)。PSEs 将相似的表征分配给在这些状态和未来状态下具有相似行为的状态,如上图所示的两个初始状态。
如下列结果所示,PSEs 显著增强了前面提到的 从像素学习的跳跃任务 的泛化能力,其表现优于先前的方法。
网格配置 | |||
---|---|---|---|
方法 | “宽” | “窄” | “随机” |
正则化 | 17.2 (2.2) | 10.2 (4.6) | 9.3 (5.4) |
PSEs | 33.6 (10.0) | 9.3 (5.3) | 37.7 (10.4) |
数据增强 | 50.7 (24.2) | 33.7 (11.8) | 71.3 (15.6) |
数据增强 + 互模拟 | 41.4 (17.6) | 17.4 (6.7) | 33.4 (15.6) |
数据增强 +PSEs | 87.0 (10.1) | 52.4 (5.8) | 83.4 (10.1) |
跳跃任务结果:在有数据增强和无数据增强的情况下,不同方法解决的测试任务比例 (%)。下图显示了“宽”、“窄”和“随机”网格的配置,包含 18 个训练任务和 268 个测试任务。我们报告了不同随机初始化 100 次运行的平均性能,括号内为标准差
跳跃任务网格配置:不同配置下带有数据增强的 PSEs 平均性能的可视化。对于每种网格配置,高度沿 Y 轴变化(11 个高度),而障碍物位置沿 X 轴变化(26 个位置)。红色字母 T 表示训练任务。米色方块是 PSEs 解决的任务,而黑色方块是未解决的任务,均在有数据增强的情况下进行
我们还对 PSEs 和基线方法学到的表征进行了可视化,通过 UMAP 将它们投射到 2D 点上,这是一种常用的高维度数据可视化技术。如可视化图像所示,PSEs 将行为上相似的状态聚集在一起,而将不相似的状态分开,这与之前的方法不同。此外,PSEs 将状态分为两组:(1) 跳跃前的所有状态;(2) 操作不影响结果的状态(跳跃后的状态)。
将已学习的表征可视化。(a) 障碍物位置不同的情况下,跳跃任务(彩色方块)的最佳轨迹。具有相同数字标签的点表示智能体与障碍物距离相同,这是在各种跳跃任务中作为基础的最佳不变特征。(b-d) 我们用 UMAP 可视化隐藏的表征,其中点的颜色表示相应观察的任务。(b) PSEs 捕捉到了正确的不变特征,如图所示,具有相同数字标签的点被聚集在了一起。也就是说,在跳跃操作(编号为 2 的方块)之后,所有其他操作(无编号方块)都是相似的,如重叠的曲线所示。与 PSEs 相反,包括 (c) l2-loss 嵌入向量(而不是对比性损失)和 (d) 基于奖励的互模拟指标在内的基线并没有把具有相似数字标签、行为上相似的状态放在一起。(c, d) 的泛化能力较弱,可能是由于具有相似最佳行为的状态最终被放在远距离嵌入向量上
结论
总体上看,本文展现了利用 RL 中的固有结构来学习有效表征的优势。具体来说,本文展示了两项可推进 RL 中泛化的贡献:策略相似性指标和对比性指标嵌入向量。PSEs 结合这两种思路来加强泛化。对于未来工作,值得探究的方向包括找到更好的方法来定义行为相似性,并利用这种结构进行表征学习。
致谢
本文由 Pablo Samuel Castro、Marlos C. Machado 和 Marc G. Bellemare 合作完成。感谢 David Ha、Ankit Anand、Alex Irpan、Rico Jonschkowski、Richard Song、Ofir Nachum、Dale Schuurmans、Aleksandra Faust 和 Dibya Ghosh 为本研究提出宝贵的建议。
原文:Improving Generalization in Reinforcement Learning using Policy Similarity Embeddings
中文:TensorFlow 公众号