关于GAN的灵魂七问
作者:CQITer小编 时间:2019-04-13 16:45
生成对抗网络在过去一年仍是研究重点,我们不仅看到可以生成高分辨率(1024×1024)图像的模型,还可以看到那些以假乱真的生成图像。此外,我们还很兴奋能看到一些新的生成模型,它们能生成与 GAN 相媲美的图像,其主要代表就是流模型 Glow。

从 DeepMind 提出的 BigGAN,到英伟达的 Style-based Generator,它们生成的图像质量都令人惊叹。尽管还有很多问题没有解决,但图像生成已经能骗过一般人类了。不信的话,你可以试试区分生成的图像与真实图像。
https://v.qq.com/x/page/j08127vm36n.html
看了上面 Style-based Generator 的生成效果,很明显感觉生成对抗网络在过去 2 年中已经取得了显著的进展。其实,从 16 年到 18 年图像合成的质量越来越高,看论文的速度都快赶不上 GAN 的发展了:

但是在另一些方面,GAN 的提升并不是那么显著。例如,关于如何评估 GAN 的效果,现在仍有很多分歧。因为目前图像合成基准已经非常多了,所以反思子领域的研究目标显得更有意义。
在这篇文章中,谷歌大脑团队的 Augustus Odena 就针对 GAN 的七大开放性问题作出了介绍。
问题 1:如何在 GAN 和其它生成模型之间进行挑选?
问题 2:GAN 能建模哪些分布?
问题 3:除了图像合成外,GAN 还能用于哪些地方?
问题 4:GAN 的全局收敛性如何?训练动态过程又是怎样的?
问题 5:我们该如何评估 GAN 的好坏,什么时候又该使用 GAN 这种生成模型?
问题 6:如何扩展训练 GAN 的批量大小?
问题 7:GAN 和对抗样本之间有什么关系?
Augustus 对每一个问题都做了很详细的讨论,包括问题背景、问题内容以及如何解决等等。这篇文章发布在 Distill 上,机器之心简要对六大问题做了介绍,更详细的内容与相关引用文献可阅读原文。
谷歌大脑和其他很多研究者都在致力于解决这些 GAN 的开放性研究问题。这篇文章也引用了近来非常多的生成对抗网络研究,因此并不能面面俱到地描述细节,所以读者有一定的基础、对这些问题有一定的直观了解就最好了。
问题1:如何在 GAN 和其它生成模型之间进行挑选?
除了 GAN,另外两种生成模型现在也很流行:流模型和自回归模型。粗略来说,流模型将一堆可逆变换应用于先验样本,以计算观测值的精确对数似然性。另一方面,自回归模型将观测值的分布分解为条件分布,并一次处理观测值的一个组件(对于图像,可能是一次处理一个像素)。最近的研究表明,这些模型具有不同的性能特点和权衡。准确描述这些权衡并确定它们是否为模型的固有特性是一个有趣的开放性问题。
具体来说,我们先暂时把重点放在 GAN 和流模型之间计算成本的差异上,训练 GAN 和流模型的计算成本之间似乎存在巨大差异。GLOW 模型是用 40 个 GPU 花两周训练的,以生成 256x256 的名人面部图像,其使用的参数为 2 亿。相比之下,自回归 GAN 是在相似的面部数据集上用 8 个 GPU 花 4 天训练的,以生成 1024x1024 的图像,它使用了 4600 万参数。流模型大概需要 17 倍多的 GPU 天数和 4 倍多的参数来生成像素少 16 倍的图像。
为什么流模型效率更低?有两个可能的原因:首先,最大似然训练可能比对抗训练的计算难度更大。其次,归一化流可能无法有效代表特定函数。论文《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》第 6.1 节对表达性做了一些小实验,但目前我们还没看到任何对这个问题的深入分析。
前面已经讨论过了 GAN 和流模型之间的权衡,那自回归模型呢?事实证明,自回归模型可以看做不可并行化的流模型(因为它们都可逆)。
因此,GAN 是并行且有效的,但不可逆;流模型是可逆且并行的,但比较低效;自回归模型是可逆且有效的,但不可并行化。

由此引出第一个开放性问题:

解决这个问题的方法之一是研究更多由多种模型混合而成的模型。这种方法已经用于混合 GAN/流模型研究,但它仍然没有被充分开发。


