别跟风了!你的公司根本不需要数据科学家
作者:媒体转发 时间:2018-08-09 01:00

大数据文摘出品
编译:Hope、倪倪、夏雅薇
数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决当下数据科学家的痛点,这样数据科学家才能发挥作用解决公司的痛点。
大约在四年前,数据科学家成为了每个公司的必须雇的人。技术人员争先恐后地甩掉在大学用的统计课本,花大量的时间重新学习Python Pandas和R,然后恶补最时髦的机器学习理论,再买几件geek制服显得更像那么回事。我就是其中一员。
如果你是做Hadoop开发的,这也是你的黄金时代。因为大家已经达成了共识,不会map/reduce得数据科学家不是合格的数据科学家。伴随着数据科学的热潮,印度的程序员工厂推出了数以千计的Hadoop程序员和数据科学“专家”来迎接未来的“大事件”,一定程度上延长了濒临倒闭的Hadoop公司的寿命。
各大公司在第一时间都开始了对数据科学家的投入。每一家在纳斯达克指数中占有一席之地的公司都向这些数据科学家支付了巨额薪水,他们认为数据的先知力量会让他们挫败竞争对手。
而各个销售经理和高层管理只要每天早上打开iPad就能实时看到公司具体运营情况。数据仪表图成为了重要的地位象征,企业高管会获得具有3D可视化和实时动画散点图的超级豪华仪表图,而基层员工也会看到平面2D仪表盘,虽然没有那么花哨,但也会得到必要的信息和简要的摘要。
然而,这其实改变不了什么。那些数据科学家(大部分具有高学历和多年工作经验,如在制药或高级材料工程领域)将会很快意识到他们使用的数据质量其实非常糟糕。

大家普遍认为企业中存在各个环节、部门的各式各样的数据都是有用的,但是最后他们发现这些数据大部分是过时的,没有固定格式的,只能够为当时需要并收集这些数据的程序员所用。
大部分数据都是以电子表格形式储存,在没有监管的情况下多次被修改,因此与真实数据有很大偏差。很多数据集没有详尽的文档记录,表格的表头名称意义不清,比如MFGRTL3QREVPRJ,不同表格之间也没有一致的主键。换句话说,他们拥有的数据不适合做任何分析,更不要提针对药物试验的专业测试分析。
现在你拿着15万美元的薪水来做可视化仪表图,给那些根本不懂统计只想获得百万利润和巨额提成的销售经理看。你的数据一团糟,根本没法用。当你请求重建数据库时,公司陷入了挣扎,这个项目要花上百万,而他们认为没有必要。现在你面临一个选择,其实你可以撒个谎,用计算机随机产生数据,然后得到一个很可能比目前数据更加准确的结果。但是这对于数据工作者是个难题,因为这违背了他们追求精准的初衷。那该怎么办?
现在,我可以装作一个语义分析传道者,告诉你需要开发一个语义数据中心。实际上,这不是很难实现,并且是有益处的,但它并不是什么神奇的魔法。语义数据可以比较容易转化成可用的数据形式(如果没有发现有用的数据,也能发现并摒弃掉没有的部分),但本质上这不是数据科学问题——它是数据质量和本体工程问题。
好了,对于那些高层决策者,当你遇到数据上的问题,你的数据科学家可以有“万花筒”般的数据分析方法,但是没有高质量的数据做保证,得到的结果一点用都没有。巧妇难为无米之炊,这不是数据科学家的问题,是你的问题,你天天盯着那些能给你赚千万资金的可视化仪表盘,其实是看着你的钱从门前溜走。
在数据分析的项目中尽管你不是实际操作的人,但你的参与绝对不是可有可无,首先你需要明确你想要什么信息,然后花时间与数据科学家和业务人员一起确定需要收集什么数据。不要指望你想要的数据会奇迹般地从数据库中出现。
再来谈谈数据库。数据库大多是为程序员所用,写各种应用程序,它存在的首要目的不是为你的公司提供具有洞见的指导性意见。首先你要坐下来好好想想你已经有什么资源,因为要从别人那里索要数据资源是非常被动的,特别是当这个数据获得权涉及到别人的工作和职责范围的时候。




