我在谷歌大脑工作的 18 个月

作者:CQITer小编 时间:2019-04-11 21:13

字号

雷锋网 AI 科技评论按:在强化学习领域,谷歌大脑的研究内容一直是业界重点关注的对象。Marc G. Bellemare 是谷歌大脑的研究员,研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研究经历和心得写成了文章并进行发表。雷锋网 AI 科技评论全文编译如下。雷锋网

时间回溯到 2017 年夏天,在欧洲一段时间的告别旅行中,我被当时在蒙特利尔新成立的谷歌大脑团队录用 (当时我进行远程办公)。我在家里的办公室可以看到伦敦北部贝尔塞斯公园(Belsize Park)的绝美景色,而且还曾招待了谷歌蒙特利尔的整个强化学习团队,这是真的。

从那以后,我搬到了另一个大陆,在 AI 实习生、学生研究者和全职谷歌员工三重角色中转换。现在,谷歌团队的规模有了相当大的扩展 (而且还在继续扩展:Marlos C. Machado 也加入了我们)。事后看来,2018 年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出,以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作,从而让我们对不远的未来有了一个认识。

分布式强化学习

「它很好。但它如何实现呢 ?」

在强化学习中,分布式的方法认为我们应该预测随机收益的分布,而不是预测它们的期望值 ( Bellemare, Dabney, Munos, ICML 2017 ) 。然而,大多数分布式智能体仍然通过将行动值 (action value)分布提取还原为它们各自的期望值,然后选择期望值最高的操作来运行。预测,然后提取。那么,为什么它在实践中表现得如此出色呢 ?

为了回答这个问题,我们开发了一种正式语言来分析分布式强化学习方法,尤其是基于样本的方法(Rowland 等,AISTATS 2018)。通过这一形式,我们发现原来的分布式算法(称为 C51)隐式地最小化了概率分布之间的距离(Cramér 距离)。但是我们的一些结果表明,分布式算法应该最小化分布之间的 Wasserstein 距离,而不是 Cramér 距离。我们(我指的是 Will Dabney)用一种叫做分位数回归(quantile regression,)的技术重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距离。由此产生的智能体(这个称为 QR-DQN)在 Atari 2600 基准上表现出强大的性能(Dabney et al.,AAAI 2018)。另一个令人兴奋的结果是, Mark Rowland 最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配,这就解释了为什么这些算法有效,而其他算法注定会失败(Rowland et al.,2019)。

根据 Mark 对 C51 的分析,我们从基本原理推导出了一个分布式算法——在本例中,使用的是更容易处理的 Cramér 距离。我们的目标是开发出一项能显式地对分配损失执行梯度下降(C51 和 QR-DQN 都没有这样做)的分配算法,而最终开发出来的是一项我们命名为 S51 的算法(Bellemare 等人,AISTATS 2019);「S」代表「有符号的」,因为算法可能会输出有效的负概率。由于其相对简单,我们能够证明,当与线性函数近似(linear function approximation)结合时,S51 能够保证收敛性。在此过程中,我们还收集了一些证据,证明在一些病态的例子中,预测 + 提取的方法比直接预测期望值的表现更糟糕。这是一位评论者所提到的「更容易出现模型错误识别」所导致的自然而然的结果。

此后,我们也证明了将预测 + 提取的方法结合到表格表征中实际上是无效的,同时证实了如果将该方法结合到线性表示中,其性能可能比预期的强化学习更差(Lyle, Castro, Bellemare, AAAI 2019)。这使我们排除了不依赖于表征选择的常见解释,如「分布式强化学习减少方差」或「平均分布式预测导致更准确的值估计」。这些解释某种程度上错误地引用了 Holmes 先生的话,一旦你排除了不可能,剩下的一定是真相:分布式强化学习一旦与深层网络结合,似乎就会变得有用。

为了收集这方面的进一步证据,我们在 Cartpole 域中训练了智能体,要么使用固定的低维表示(一阶傅里叶基),要么使用类似的深度网络。结果(总结如下面的图表所示)相当有说服力:在固定表征的情况下,分布式方法的性能比基于预期的方法差;但使用深度表征后,它们就表现得更好了。这篇论文还表明,基于 Cramér 的方法应该输出累积分布函数(cumulative distribution function),而不是概率质量函数(probability mass function,PMFs)。

我在谷歌大脑工作的 18 个月

一名深度学习实践者会很自然地得出这样的结论:分布式强化学习是有用的,因为「它有助于更好地学习表征」。但这在形式上意味着什么呢?如何证明或反驳这种说法呢?这些问题促使我们研究了一个非常热门的话题:将表征学习应用于强化学习。

表征学习

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
关键词 >> 我在谷歌大脑工作的,18,个月
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接