人类在 Dota2 国际大赛上打得 OpenAI 提前打道回府,但 AI 赢回来也只是时间问题
作者:网友投稿 时间:2018-08-25 21:30

正如专注于游戏领域 AI 研究的迈克·库克在 Twitter 上所说,「机器人在即时即地的反应上做得很好,但宏观层面决策的表现却很糟糕。」Open AI 计划在当地时间周三、周四、周五连比三场,由于比赛采取三局两胜制,OpenAI 在输给中国战队之后,就结束 TI8 之旅。

两场比赛分别持续了 51 分钟和 45 分钟,从数据来看,OpenAI Five 在比赛开始的前 20-35 分钟内确实有很大的胜算。以 AI 的计算能力来看,OpenAI Five 不乏出彩的表现,比如「围剿」孤立的英雄,近距离进行技能释放,血量计算等。在与巴西战队 paiN 的较量中,AI 也拿到比对手更多的「人头」。毕竟,人工智能就是一台机器,可以获取游戏后端给予的精确的数字反馈,比如英雄状态和英雄间距离等信息。但是在战略上,人工智能远不及人类,执着于击打 Roshan、莫名其妙的在家、塔下插眼、在没有对手的时候放大收野。

这种精准的计算和不稳定的战略恰好反映了 AI 是如何学会打 Dota 的,OpenAI 使用强化学习训练 AI 从头自学,在一遍遍尝试中坚持下来有效的动作。因此也导致了 OpenAI Five 在面对训练中没有遇到的情况时束手无策,从事 OpenAI Dota 项目的软件工程师苏珊·张表示,「如果 AI 在比赛中遇见了之前从未有过的情况,很难立即调整。同时,在训练过程中,机器人在判断采取何种行动时,最多会提前 14 分钟。没有任何一种机制让机器人部署超过 14 分钟的长期战略。」所以,AI 的这一缺陷,在两场比赛中展露无遗。
在比赛开始前,格雷格·布罗克曼曾对 The Verge 表示,公司曾进行一场内部员工投票,认为 OpenAI Five 获胜的可能性不到 50%,这是普遍的共识。但是他补充说,真正重要的是 AI 的进步速度。AI 在接近某战队水平时,就与他们打比赛,一、两周之后,AI 就能超过他们,这样的事情已经「验证」很多次了。
不可否认的是 AI 强大的学习能力,即便完败巴西、中国战队,OpenAI 的 AI 选手也远远超越早期的电子竞技机器人。
在体育和游戏中,人工智能与人类的对抗有着悠久的历史。IBM 开发的深蓝计算机在 1996 年成为了第一个与世界象棋冠军较量并赢得比赛的电脑系统。战胜越来越具有挑战性的人类冠军则慢慢成为衡量人工智能进步的标准。
2016 年 3 月,AlphaGo 与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以 4:1 的总比分胜出;之后,AlphaGo 以网络围棋手「Master」的身份为与中日韩数十位围棋高手进行对决,以 60 胜零负收场。此后,DeepMind 团队公布全新强化学习算法——AlphaZero,仅仅通过自我对弈的方式就达到超越人类的水平。
去年,谷歌旗下的 DeepMind 和马斯克创建的非盈利研究实验室 OpenAI 合作研究一种根据人类反馈进行强化学习的新方法,并发表论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度强化学习)。要建立一个安全的 AI 系统,其中很重要的一步是不再让人类给 AI 系统写目标函数,因为这都可能导致 AI 行为偏离轨道或引发危险。新算法只需要人类逐步告诉 AI,两种 AI 推荐的动作中哪一种更好,AI 由此推测人类的需求进行学习,比如新算法用来自人类评价员的 900 次二选一反馈学会了后空翻。OpenAI 和 DeepMind 希望通过新算法来提高人工智能的安全性。




