我的数据科学成果为什么无法商业化?
作者:CQITer小编 时间:2018-06-24 16:49

大数据文摘出品
编译:Charlene、涂世文、YYY
在数据科学的实践应用中,有些工作成果可以获得数十亿级的商业回报,而绝大多数的工作成果却并没有达到预期的效果。本文作者是Nick Elprin,Domino Data Lab公司的创始人兼CEO,拥有哈佛大学计算机硕士学位。他在文中探讨了数据科学工作成果不尽如人意的四个可能原因。
当前,许多公司都面临着这样的困境:把数据科学的工作成果真正转化为商业价值。
据一项涉及250位数据科学团队主管和员工们的问卷调查显示:60% 的公司计划在2018年把他们的数据科学团队扩大一倍,90% 的公司相信数据科学会带来商业创新。但是,少于9% 的公司会量化数据模型带来的商业价值,仅仅11%的公司能把至少50个预测模型投入使用。
问卷链接:
https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/
那么造成这种困境的根源是什么?一般来说,运用数据科学的公司可以分为两种:一种是把数据科学仅看作是一种技术实践的公司;另一种是把数据科学作为一个重要部分,进一步渗透到商业实践的大环境中的公司。在进行决策制定过程中,那些能够熟练地运用技术和管理实践,并且把算法驱动的决策作为业务核心的公司,往往能获得最大的商业回报。这些公司才能够被称为 “模型驱动商业价值”型公司,比如亚马逊、Netflix、Stitch Fix、特斯拉等。

当然,说起来容易做起来难。让我们来看看那些投资数据科学以求商业回报的公司们正在面对的四大挑战:
团队内各自为政1+1<2
聘请数据科学家并不能保证你的公司能从中获益。对于绝大多数公司来说,根据边际效益递减规律,在已经有一个数据科学家的团队里,再额外聘用一个数据科学家,并不会有多一倍的产出。然而,少数拥有表现突出的数据科学团队的公司,会出现增加数据科学家,就能指数般提高产出的效果。
这里还有一个老生常谈的问题,那就是数据科学家们都各自为政,在独立的工作中,他们经常做重复的工作。因为他们看不到别人已经完成了什么工作,所以也没法通过继承前人的工作成果,来让自己的工作变得轻松高效。
举个例子,在一家知名保险公司里,几十名数据科学家无组织、无合作地攻克同一个商业问题,这让公司在数据科学方面的投资不值,也失去了更多本来可以用这些投资来发现的新机会。
换句话来说,一堆单单做模型的人,与一个有机结合的数据团队是有本质区别的。那些有机组合在一起的团队成员们能够熟练运用知识、技能、经验,用更短的时间,创造更好的模型,
模型部署与评估的割裂
运作良好的数据科学团队,在工作中会有持续迭代的周期(从研究到产出的循环迭代),以及对模型效果的衡量。但是,模型研究和模型部署,这两个过程经常被完全割裂。并且,当一个模型被使用后,也没有与之对应的商业效果的分析。这会导致模型没法根据商业效果迭代更新,给公司造成损失。有一家主流财务公司声称,他们“让一个模型产生效用的时间,比建造新总部大楼的时间都要长”.
工具与技术与不匹配
尽管IT部门在过去十几年的时间里,构建了用来储存和处理数据的大数据基础设施,但是这些基础设施本身并不能完全保证数据科学的成功实践。数据科学家会在一个月内使用多达3-5种不同的工具包,并时刻追赶最前沿的技术。仅在2017年,基于流行的开源程序语言Python 的软件包,就多达36万5千次更新!
另外,数据科学家的工作需要使用弹性计算平台(云计算平台)来进行具体操作实验,譬如进行深度学习就需要配备GPU的高性能计算机。如果团队不能使用弹性计算和最前沿的工具,那么团队的效率会大大下降,研究进度会拖后,最终影响整个模型的开发进程。更糟糕的是,一些大公司(比如一家全球性的银行)的新的Python数据包审批速度太慢,导致数据科学家们最终悄悄地用私人电脑来工作。这种在没有IT部门明确审批的情况下,使用新工具的现象被称为“影子IT (shadow IT)”。
模型监管缺失



