不!机器学习才不只是统计学的美化!
作者:媒体转发 时间:2018-08-26 16:31

大数据文摘出品
编译:JIN、Hope、蒋宝尚
题图上这张在社交媒体上疯狂传播的恶搞漫画博得了不少转发,这似乎暗示着,对机器学习的炒作热度开始消退。然而,机器学习真的只是被美化的统计学吗?
哈佛大学数据科学硕士、机器学习从业者Joe Davison认为,远不止如此。
他从统计学和机器学习分别出发,对比了两者的不同之处,希望让人们正确认知机器学习和人工智能。这篇博客在海外科技网站Medium上获得了超过7.4k的认同。
一起来看看。
越来越多的人都开始认为机器学习真的没有什么可值得兴奋的,它只不过是对老旧的统计技术的重新包装罢了。
然而问题是,事实并非如此。
可以看出,深度学习传播的狂热分子不流行了。甚至是那些站在科学顶端的专家们,现在对使用这个术语都失去了极大的热情,仅剩些许懊恼,反而更倾向于淡化现代神经网络的力量,避免让大量群众认为 import keras 能够克服每一个障碍。
就像Yann LeCun所说的那样,虽然深度学习已经超过机器学习成为新的流行词,但是这种对态度的过度矫正导致了人们对人工智能的发展、未来和实用性产生了不良的怀疑。另外,现在流传着人工智能冬季即将逼近的说法,从这一点就可以预见,人工智能研究会像过去几十年那样停滞不前。
本文不是要反对人工智能冬季的说法,也并非要争论机器学习的发展都应归功于某一个学术团体而非其他。本文论述的目的在于要正确的评估机器学习。人工智能可见的发展不仅仅局限于大型计算机和更优的数据集。近期在深度神经网络及其相关领域的成功,正说明了机器学习代表着科学技术进步的最前沿。
机器学习!=统计学
“当你集资时,需要人工智能。当你招聘时,需要机器学习。当你执行任务时,需要逻辑回归。”—推特网友
正如标题所说,本文主要强调机器学习不只是统计学的美化。当然,这种“统计学的美化”观念的形成是不无道理的,因为在机器学习中广泛使用了统计学的概念,如回归、权重、偏差、模型等等。

另外,许多模型都近似于统计函数:由逻辑组成的分类模型的softmax输出;将训练图像分类器的过程处理为逻辑回归。
虽然,单从技术角度来说,这种观念思路是正确的,但将整个机器学习简单归化为统计学的附属物就太过一概而论了。统计学是数学领域,涉及对数据的理解和解释。机器学习则只是一类计算算法(所以,它其实诞生于计算机科学)。
在许多情况下,这些算法在帮助理解数据方面完全无用,并且只能在无法解释的预测模型中发挥一些作用。在某些情况下,例如在强化学习中,算法甚至根本不会使用到已有的数据集。此外,在图像处理的情况下,将像素作为特征,将图像作为数据集的处理方式也只不过是开始时的延申。
当然,这并非意味着机器学习的发展就全都归功于计算机科学家,而非统计学家。像任何研究领域一样,机器学习今天的成功是多个学术领域共同努力的结果,而统计学和数学则是贡献最大的领域。
然而,如果要正确评估机器学习方法的强大影响力和潜力,首先就需要纠正错误观念:人工智能的现代发展也不过是老旧的统计技术有了更大的计算机和更好的数据集。
机器学习不需要高级统计学知识

这里我想说,在学习机器学习期间,我有幸参加了一个深度学习技术的精彩课程,这是我本科计算机科学课程的一部分。在我们指定的项目中,就有一个是在TensorFlow中执行和训练Wasserstein GAN。
当时,我仅仅只上过一门统计导论的选修课,并且大部分内容我也已经忘记了,此次看来,我的统计技能并不是很强。但是,我依旧能够读懂一篇关于最新的生成机器学习模型的论文,并且能够从头执行,实现操作,并通过在MS Celebs数据集上训练,从而生成非常有说服力的虚假图像。


