我们问了Yann LeCun等16个顶级数据科学家,这是他们给数据新人的建议

作者:CQITer小编 时间:2018-05-20 01:47

字号
人工智能+区块链的发展趋势及应用调研报告

数据科学家

数据文摘作品

编译:Fei、杨小咩是小怪兽、张南星、Rita、云舟

数据科学为何迷人?这与数据科学家密不可分!

通过合理使用大量数据,在这群人的手中,大批新应用、新行业应用而生。

语音识别,计算机视觉中的物体识别,机器人,自动驾驶汽车,生物信息学,神经科学,系外行星的发现,对宇宙起源的理解,以及在经费有限的条件下,组织一支胜出的棒球队。

数据科学家是整个产业的核心。他们必须将应用领域的知识与统计专业知识结合起来,并运用最新的计算机科学思想来实施。

本文节选自《工作中的数据科学家》,书中采访了16个不同行业的16位顶级数据科学家,以了解他们在理论上如何思考,以及在实际中解决什么问题,数据的作用和取得成功的原因。

本文中,你将看到这些来自不同行业的科学家对以下这个问题的回答:

“你会给初入数据科学行业的人提供什么建议?”

去年,大数据文摘也花费3个月的时间,访谈了来自不同国家不同行业的10位顶级数据科学团队负责人。感兴趣的同学可以在文末看到这十篇内容。

我们问了Yann LeCun等16个顶级数据科学家,这是他们给数据新人的建议

1. Chris Wiggins,纽约时报首席数据科学家、哥伦比亚应用数学副教授

创造力和关怀。你必须真正喜欢某件事情,愿意花很长一段时间来琢磨它。还有,保持一定的怀疑。我喜欢博士生的一个原因是——五年的时间足以让你有一个发现,让你认识到你一路上做错的所有事情。对你来说很棒的是,能理智地反复思考“冷聚变”然后意识到“哦,我真的搞砸了”,从而犯下一系列错误并解决它们。

我认为攻读博士学位的过程,特别是做研究时,确实能让你对那些看起来理所当然的事情有所怀疑。我认为这点很有用,因为,如果不能保持怀疑,你很容易就会走上错误的道路——因为这是你第一次遇到一条看起来很靠谱的路。

虽然这个答案看起来无聊,但事实是你需要真正拥有技术深度。数据科学还未形成一个领域,所以目前还没有证据。

我们很容易就可以通过维基百科理解机器学习的概念。但要真正做到这一点,你需要知道对一个具体的问题应该使用哪种工具,而且你需要充分了解每种工具的缺陷和限制。要获得这些经验没有捷径。只有不断试错。你会发现自己将分类问题归入聚类问题,或将聚类问题归入假设检验问题。

你发现自己开始尝试某些事情,自信自己做的是对的,然而最终意识到你完全错了,这样的事情你会经历许多次,而且非常不幸没有捷径可走——但这会提升你的经验。你只需要这样做下去,并不断犯错误,这也是另一个我喜欢在这个领域从业多年的人的理由。

在某件事上要想成为专家需要很长时间。这需要多年的错误。几个世纪以来现实一直如此。引用著名物理学家Niels Bohr的一句名言,成为一个领域的专家的方法就是在该领域中尽可能地犯错。

2. Caitlin Smallwood,Netflix的科学与算法副总裁

我会说在你做任何其他事情之前,首先要硬着头皮理解数据的基础知识,尽管它既不迷人也不那么有趣。换句话说,努力了解如何捕获数据,准确理解每个数据字段是如何定义的,并了解数据何时丢失。

如果数据缺失,这是否意味着什么?它是否仅在某些情况下丢失?这些小小的微妙的数据陷阱会让你深深陷入数据科学的魅力中。

你可以使用最复杂的算法,但如果这一切建立在不经检验的数据集上,你得到的结果也毫无价值。无论你有多迫不及待想要着手数据建模的部分,你都无法忽略原始的数据。在开始建模之前,标记你的i,跨过你的t,仔细检查你所掌握的所有底层数据。

我又渐渐学会的另一件事是,在系统环境下,混合算法几乎总比单一算法表现得出色,因为不同的技术会利用数据模式的不同方面,特别是在复杂的大型数据集中。因此,虽然你可以采用一种特定的算法并不断迭代以获得更好的模型,但我的经验是,算法组合往往比单一算法更好。

3. Yann LeCun,Facebook人工智能研究总监、纽约大学教授

我总是给出同样的建议,因为我经常被问到这个问题。我认为,如果你是一名本科生,选择一门你可以尽可能多地学习数学和物理课程的专业。而且它必须是正确的课程。我说的话可能听起来自相矛盾了,但工程学或物理学的专业可能比数学、计算机科学或经济学更合适。当然,你需要学习编程,所以你需要参加计算机科学专业的大量课程来学习编程的机制。

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接