如何理解深度学习的优化？通过分析梯度下降的轨迹

作者：媒体转发时间：2018-11-20 16:26

字号

神经网络优化本质上是非凸的，但简单的基于梯度的方法似乎总是能解决这样的问题。这一现象是深度学习的核心支柱之一，并且也是我们很多理论学家试图揭示的谜题。这篇文章将总结一些试图攻克这一问题的近期研究，最后还将讨论我与 Sanjeev Arora、Noah Golowich 和 Wei Hu 合作的一篇新论文(arXiv：1810.02281)。该论文研究了深度线性神经网络上梯度下降的情况，能保证以线性速率收敛到全局最小值。

深度学习的优化

图景(landscape)方法及其局限性

很多有关深度学习优化的论文都隐含地假设：在建立了损失图景(尤其是临界点的损失图景，临界点是指梯度消失的点)的几何性质之后，就会得到对其的严格理解。举个例子，通过类比凝聚态物理学的球形自旋玻璃模型，Choromanska et al. 2015 的论证变成了深度学习领域的一个猜想：

图景猜想：在神经网络优化问题中，次优的临界点的 Hessian 非常可能有负的特征值。换句话说，几乎没有糟糕的局部最小值，而且几乎所有的鞍点都是严格的。

针对多种不同的涉及浅(两层)模型的简单问题的损失图景，这一猜想的强形式已经得到了证明。这些简单问题包括矩阵感知、矩阵完成、正交张量分解、相位恢复和具有二次激活的神经网络。也有研究者在探究当图景猜想成立时实现梯度下降到全局最小值的收敛，Rong Ge、Ben Recht、Chi Jin 和 Michael Jordan 的博客已经给出了很好的描述：

他们描述了梯度下降可以如何通过逃避所有的严格鞍点来达到二阶局部最小值(Hessian 为正半定的临界点)，并还描述了当将扰动加入到该算法时这个过程是如何有效的。注意这是在图景猜想下，即当没有糟糕的局部最小值和非严格鞍点时，二阶局部最小值可能也是全局最小值。

如何理解深度学习的优化？通过分析梯度下降的轨迹

但是，很显然，图景方法(和图景猜想)不能以这种方式应用于深度(三层或更多层)网络。有多个原因。第一，深度网络通常会引入非严格鞍点(比如，在所有权重都为零的点，参见 Kawaguchi 2016)。第二，图景角度很大程度上忽视了算法方面，而在实践中算法方面对深度网络的收敛有很大的影响——比如初始化或批归一化的类型。最后，正如我在之前的文章中谈到的，基于 Sanjeev Arora 和 Elad Hazan 的研究，为经典线性模型添加(冗余的)线性层有时能为基于梯度的优化带来加速，而不会给模型的表现力带来任何增益，但是却会为之前的凸问题引入非凸性。任何仅依靠临界点性质的图景分析都难以解释这一现象，因为通过这样的方法，因为优化一个具有单个临界点且该临界点是全局最小值的凸目标是最困难的。

解决方案?

图景方法在分析深度学习优化上的局限性说明它可能抛弃了太多重要细节。比起「图景方法是否优雅」，也许更相关的问题是「来自特定初始化的特定优化器轨迹(trajectory)具有怎样的行为?」

如何理解深度学习的优化？通过分析梯度下降的轨迹

尽管基于轨迹的方法看起来比图景方法繁重得多，但它已经带来了可观的进展。近期一些论文(比如 Brutzkus and Globerson 2017、Li and Yuan 2017、Zhong et al. 2017、Tian 2017、Brutzkus et al. 2018、Li et al. 2018、Du et al. 2018、Liao et al. 2018)已经采用了这一策略，并成功分析了不同类型的浅模型。此外，基于轨迹的分析也正开始涉足图景方法之外的领域——对于线性神经网络情况，他们已经成功确立在任意深度下梯度下降到全局最小值的收敛性。

对深度线性神经网络的基于轨迹的分析

线性神经网络是使用线性激活或不使用激活的全连接神经网络。具体来说，一个输入维度为 d_0，输出维度为 d_N 且隐藏维度为 d_1,d_2...d_{N-1} 的深度为 N 的线性网络是

如何理解深度学习的优化？通过分析梯度下降的轨迹