你用什么方法调试深度神经网络?这里有四种简单的方式哦

作者:CQITer小编 时间:2019-04-01 09:42

字号

当你花了几个星期构建一个数据集、编码一个神经网络并训练好了模型,然后发现结果并不理想,接下来你会怎么做?

深度学习通常被视为一个黑盒子,我并不反对这种观点——但是你能讲清楚学到的上万参数的意义吗?

但是黑盒子的观点为机器学习从业者指出了一个明显的问题:你如何调试模型?

在这篇文章中,我将会介绍一些我们在 Cardiogram 中调试 DeepHeart 时用到的技术,DeepHeart 是使用来自 Apple Watch、 Garmin、和 WearOS 的数据预测疾病的深度神经网络

在 Cardiogram 中,我们认为构建 DNN 并不是炼金术,而是工程学。

调试深度神经网络

你的心脏暴露了很多你的信息。DeepHeart 使用来自 Apple Watch、 Garmin、和 WearOS 的心率数据来预测你患糖尿病、高血压以及睡眠窒息症(sleep apnea)的风险。

一、预测合成输出

通过预测根据输入数据构建的合成输出任务来测试模型能力。

我们在构建检测睡眠窒息症的模型时使用了这个技术。现有关于睡眠窒息症筛查的文献使用日间和夜间心率标准差的差异作为筛查机制。因此我们为每周的输入数据创建了合成输出任务:

标准差 (日间心率)—标准差 (夜间心率)

为了学习这个函数,模型要能够:

区分白天和黑夜

记住过去几天的数据

这两个都是预测睡眠窒息症的先决条件,所以我们使用新架构进行实验的第一步就是检查它是否能学习这个合成任务。

你也可以通过在合成任务上预训练网络,以半监督的形式来使用类似这样的合成任务。当标记数据很稀缺,而你手头有大量未标记数据时,这种方法很有用。

二、可视化激活值

理解一个训练好的模型的内部机制是很难的。你如何理解成千上万的矩阵乘法呢?

在这篇优秀的 Distill 文章《Four Experiments in Handwriting with a Neural Network》中,作者通过在热图中绘制单元激活值,分析了手写模型。我们发现这是一个「打开 DNN 引擎盖」的好方法。

我们检查了网络中几个层的激活值,希望能够发现一些语义属性,例如,当用户在睡觉、工作或者焦虑时,激活的单元是怎样的?

用 Keras 写的从模型中提取激活值的代码很简单。下面的代码片段创建了一个 Keras 函数 last_output_fn,该函数在给定一些输入数据的情况下,能够获得一层的输出(即它的激活值)。

from keras import backend as K 

 

def extract_layer_output(model, layer_name, input_data): 

  layer_output_fn = K.function([model.layers[0].input], 

                               [model.get_layer(layer_name).output]) 

 

  layer_output = layer_output_fn([input_data]) 

 

  # layer_output.shape is (num_units, num_timesteps) 

  return layer_output[0] 

我们可视化了网络好几层的激活值。在检查第二个卷积层(一个宽为 128 的时间卷积层)的激活值时,我们注意到了一些奇怪的事:

你用什么方法调试深度神经网络?这里有四种简单的方式哦

卷积层的每个单元在每个时间步长上的激活值。蓝色的阴影代表的是激活值。

激活值竟然不是随着时间变化的!它们不受输入值影响,被称为「死神经元」。

你用什么方法调试深度神经网络?这里有四种简单的方式哦

ReLU 激活函数,f(x) = max(0, x)

这个架构使用了 ReLU 激活函数,当输入是负数的时候它输出的是 0。尽管它是这个神经网络中比较浅的层,但是这确实是实际发生的事情。

在训练的某些时候,较大的梯度会把某一层的所有偏置项都变成负数,使得 ReLU 函数的输入是很小的负数。因此这层的输出就会全部为 0,因为对小于 0 的输入来说,ReLU 的梯度为零,这个问题无法通过梯度下降来解决。

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接