理性强化学习遭遇瓶颈,进化算法会成为接替者吗?
作者:网友投稿 时间:2018-06-22 01:32
人工智能和博弈论的交集催生了强化学习,但在博弈论基础上的问题求解通常依赖于理性和完美信息假设。在多智能体博弈环境下,这种条件的满足几乎是不可能的。作者分析了传统强化学习在这方面的局限,并讨论了进化强化学习作为替代方案的可能性。

人工智能(AI)的研究领域充满了无法回答的问题以及无法被分配给正确问题的答案。在过去,人工智能为它坚持「错误」的做法付出了代价,经历了一段时间的停滞,也就是所谓的「人工智能的寒冬」。然而,人工智能的日历刚刚翻入了春天,相关的应用领域正在蓬勃发展。
时至今日,人工智能的一个分支长期以来一直被人忽视,这里说的是强化学习。强化学习最近在 AlphaGo 和 Atari 游戏中展示了令人印象深刻的结果。但说实话,这些都不是强化学习的胜利。在这些例子中,发挥更深层作用的是深度神经网络,而不是强化学习,强化学习的研究水平仍然维持在它几十年前所达到的深度上。
当人们将强化学习应用到现实生活问题中时,情况就更糟了。如果训练一个机器人使其能在绳子上保持平衡听起来很困难,那么不妨试试训练一队机器人去赢得一场足球比赛,或者训练一队无人机来监视移动的目标。
在我们失去分支(强化学习)甚至是整棵大树(人工智能)前,我们必须提升对这些应用的理解。博弈论是用于研究拥有共同目标的参与者(player)团队在对弈中的应对策略的最常见方法。它能够赋予我们在这样的环境下指引机器学习算法的工具。
但是,需要注意的是这种常见的方法并不是一种与常识相符的方法,我们来看看为什么。
消除错误和建立新真理或事实一样好,甚至有时比它们更好。——Charles Darwin
首先,让我们从了解一些术语和这些领域的基础知识开始探索其奥秘。
博弈论
1. 一些常用术语
博弈:正如人们通常所理解的游戏,它可能是任何环境,其中参与者采取行动,并且博弈的结果取决于行动。
参与者:在博弈中做出决策的人。
策略:在给定一系列可能在博弈中出现的情况下,一个参与者采用的完整的行动方案。
收益:参与者从博弈的特定结果中获得的收益。
均衡:在一场博弈中,参与者都做出了他们的决策并且得到了结果的状态。
纳什均衡:一种如果其它参与者的策略保持不变,任何参与者都不能通过改变他们自己的策略获得收益的均衡状态。
占优均衡:无论一个参与者的对手如何选择策略,该参与者的策略都比其对手好的一种均衡状态。
2. 囚徒困境
这可能是文献中最著名的博弈案例。其收益矩阵如下图所示。对于「收益矩阵」(又名支付矩阵)的介绍可能需要一千字的篇幅。对于一个有经验的人来说,一个收益矩阵就已经足够提供描述一场博弈所必需的所有信息了。现在,让我们稍微了解一下什么是「囚徒困境」。

囚徒困境的收益矩阵
警方逮捕了两名犯罪嫌疑人,嫌疑人 A 和嫌疑人 B。尽管臭名昭著,但由于缺乏证据,这两名嫌疑人不能因正在被调查的犯罪事实而入狱。但他们可以以较轻的罪名被拘留。
他们被囚禁的时间取决于他们将在审讯室中说些什么,而这就恰好引发了一场博弈。每位嫌疑犯(参与者)都有机会对另一名嫌疑犯保持沉默或告密。收益矩阵描述了每一名参与者将根据博弈的结果被囚禁多少年。例如,如果嫌疑人 A 保持沉默,而嫌疑人 B 告发了他们,嫌疑人 A 将服刑 3 年(收益为 -3),嫌疑人 B 则将不用服刑(收益为 0)。
如果你仔细研究这个收益矩阵,你会发现:参与者合理的行动应该是背叛另一个人,或者从博弈论的角度来说,背叛他人是占优策略。然而,如果每个人都选择背叛他人,将导致博弈走向纳什均衡,这意味着每个参与者都会得到 -2 的收益。
不觉得有什么奇怪的吗?是的,或许说至少本来就应该是这样。如果两位参与者都同意保持沉默,他们都会得到更高的奖励「-1」。囚徒困境是说明有时「合理的行动导致的结果比合作更差」的一个博弈的例子。
3. 一些历史上的评价



