机器学习=「新瓶装旧酒」的数据统计？No！

作者：媒体转发时间：2018-08-31 16:27

字号

9月15日技术沙龙 | 如何将智能化和运维工作相结合，实现智能运维！

最近，关于深度学习和人工智能的一个梗在社交媒体上广为流传，认为二者只是墙上一道镶了崭新边框的裂缝，暗讽机器学习只是重新包装过的统计学，本质上是「新瓶装旧酒」。然而事实真的是这样吗?本文对这种看法提出了异议，认为机器学习 ≠ 数据统计，深度学习为我们处理复杂的非结构化数据问题做出了重大贡献，而人工智能应该得到其应得的赞赏。

机器学习

随着深度学习的热度开始消退，这个梗最近开始在社交媒体上广为流传，引起了互联网上众人的讥笑。机器学习没什么好激动的，它只是对统计技术的一种补充——这种观点越来越普遍;但问题是这个观点并不正确。

我明白，成为一个极度狂热的深度学习传播者并不时尚。哪怕是 2013 年试图让所有人都知道深度学习的机器学习专家，现在再提起这个术语也只有失望，他们现在更倾向于弱化现代神经网络的力量，唯恐人们将他们与还认为「import keras」是万金油的人混为一谈。而他们自认为与后者相比，自己还是相当有优势的。

虽然正如 Yann LeCun 所说，深度学习已经不再是一个时髦的词，但这种矫枉过正的态度已经对人工智能的进步、未来和实用性产生了不良的影响。这一点在关于人工智能寒冬的讨论中体现得尤为明显，在这个寒潮里，人工智能被预言将会像几十年前一样停滞多年。

机器学习=「新瓶装旧酒」的数据统计？No！

然而这篇文章并不是对人工智能进入寒冬表示质疑，也不是想说深度学习的进步更应归功于哪个学术团队;相反，它只是想说，人工智能应该得到其应得的赞赏;它发展的水平已经超越超级计算机和更优的数据集;机器学习最近也在深度神经网络和相关工作中取得了巨大成功，代表了世界上最先进的技术水平。

机器学习≠数据统计

「融资的时候, 我们讲人工智能 ;找工作的时候，我们说深度学习;但做项目的时候，我们讲 logistic 回归。」

——推特上每个人都这么说

这篇文章的主题是，机器学习不仅是对数据统计的再包装——这一领域有更大型的计算机和更好听的名字。这个概念来源于统计学的概念和术语，这些概念和术语在机器学习中非常常见，像回归、权重、偏置、模型等等。此外，很多模型近似统计函数：分类模型的 softmax 输出由 logits 组成，使得图像分类器的训练过程成为 logistic 回归。

尽管这种思路在技术层面是对的，但将机器学习作为一个整体看作只是统计学的一个分支还为时过早。这种比较没有什么意义。统计学是处理数据和解释数据的数学领域。机器学习只不过是一种计算算法(诞生于计算机科学)。很多情况下，这些算法在帮助理解数据方面毫无用处，只能帮助某些类型的不可理解的预测建模。例如在强化学习中，算法可能都不会使用已有的数据集。另外，在图像处理中，将图像视为以像素为特征的数据集，从一开始就有点牵强。

问题的关键当然不在于这个荣誉应该属于计算科学家还是属于统计学家;就像其它领域一样，能取得今天的成功是各个学术学科的功劳，其中当然包括统计学和数学。然而，为了正确评估机器学习方法的巨大影响力和潜力，有必要先打破这个错误的观念：现代人工智能的发展，无非就是古老的统计技术拥有了更强大的计算机和更好的数据集。

机器学习无需高深的统计学知识

先听我说，入门机器学习的时候，我幸运地选了一门非常棒的课程，是专门讲深度学习的。这也是我本科计算机课程的一部分。我们要完成的一个项目是在 TensorFlow 上实现和训练 Wasserstein GAN。

当时我只修了一门必修的统计学入门课，但我很快就把大部分内容都忘了。不用说，我的统计能力并不强。然而，我却能读懂一篇最先进的生成机器学习模型的论文，并且从头实现了它——通过在 MS Celebs 数据集上训练，生成了能以假乱真的虚拟图像。

在整个课程中，我和同学们成功地训练了针对癌症组织的图像分割、神经机器翻译、基于字符的文本生成以及图像转换的模型，这些模型都采用了近几年刚刚发明的尖端机器学习技术。

然而，你要是问我或者我的同学如何计算一组数据的方差，或者定义边缘概率，我们应该会交个白卷。

这似乎与人工智能只是对古老统计技术的重新包装的观点有些矛盾。

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>数据统计机器学习深度学习

继续阅读