微软的数据湖也凉凉了

作者:CQITer小编 时间:2018-10-09 16:35

字号
【新产品上线啦】51CTO播客,随时随地,碎片化学习

6号坐飞机,就听到微软的朋友说微软数据湖完蛋了,队伍解散了,那个曾经领导了这个项目的印度人Raghu成了名副其实的光杆司令。在飞机上心情拔凉拔凉的。当然飞机上没法写公众号,只能拖到今天来写了。

微软的数据湖也凉凉了

为什么我会心有戚戚然呢?大家看一段维基百科上面关于微软数据湖的历史:

The Azure Data Lake service was released on November 16, 2016. Azure Data Lake is built on the learnings and technologies of COSMOS, Microsoft’s internal big data system. COSMOS is used to store and process data for applications such as Azure, AdCenter, Bing, MSN, Skype and Windows Live. COSMOS features a SQL-like query engine called SCOPE upon which U-SQL was built.

翻译一下:Azure数据湖服务是2016年11月16日发布的。Azure数据湖是在微软内部的大数据平台Cosmos的技术和经验教训基础上构建的。Cosmos用来处理应用程序比如Azure, AdCenter, Bing,MSN, Skype和Windows Live的数据。Cosmos有一个像SQL一样的查询引擎叫做SCOPE。 U-SQL是在其上构建的。

这段话有点像黑话,我来翻译一下。微软有个内部大数据平台Cosmos,微软的很多部门都用它去存储和分析数据。Cosmos上有个分析引擎脚SCOPE,和SQL很像。Azure数据湖服务构建在Cosmos的经验教训上。提供了一个叫做U-SQL的语言,是从SCOPE那借鉴来的。

有些读文章的人知道,我毕业的第一份工作,在微软一个叫Cosmos的队伍,做的是一个叫SCOPE的语言。所以这解释了为什么在飞机上我还戚戚然了。

Cosmos的历史可以追溯到微软上一代CEO Steve Ballmer时代去了。当时Ballmer大举进军搜索做必应搜索引擎,为了支持构建搜索引擎,微软需要大数据分析平台。这就是Cosmos项目最开始的缘由。

Cosmos系统的具体细节,大家可以参阅我早年的文章:大数据那些事(15):Cosmos的技术。这里给一个简单的回顾。Cosmos底层是类似Google File System的文件存储系统。基本上是抄谷歌的架构,在某些细节上,比如压缩算法上有自己的特色。中间执行层用的是微软硅谷研究院(已经被沈向洋给整体关闭了)的Dryad。这个技术比MapReduce要高级一些,和Spark有类似之处。上面是一个查询引擎,类似SQL,叫SCOPE。

大约到2012年Cosmos基本上在微软内部把微软大部分部门的数据存储和处理都搬迁上来了,队伍也一再壮大。几个经理更是坐火箭一般的上升。据说由此内部和Steve Ballmer review的时候,Steve Ballmer说,这个东西这么好,什么时候卖给沃尔玛啊,我们好赚钱。这个说法是真是假不得而知,但是确实奠定了后续很多事情的基础。

2013年的Steve Ballmer做了两件事情,直接导致了他下台,也对Cosmos团队产生了很大的影响。第一件事情当然和Cosmos无关,就是买了Nokia。第二件事情是做了一个名为One Microsoft的全公司的重组。作为重组的一部分,Cosmos被从必应搜索引擎给剥离出来,划给了当时做SQL Azure和HDInsight的DPG(Data Processing Group)。这就导致了后来Azure Datalake的故事了。

作为当时Cloud & Enterprise的EVP的Satya,从雅虎研究院请来了印度人里面的大牛,数据库领域的著名专家Raghu。这位请来没多久,就对大数据这一块产生了兴趣,顺理成章的成为了Cosmos这个部门的大领导。

Raghu这个人我有很矛盾的看法。一方面作为威斯康辛的教授,数据库领域的大牛,其学术贡献不可忽视。我至今还记得自己第一次参加VLDB的时候他给我们这些年轻学生做报告,告诉大家当年他是如何头悬梁锥刺股的做研究的。另外一方面作为manager来说,可谓盛名之下其实难副,好端端的Cosmos被管的一塌糊涂。

Raghu上来之后就急于想把Cosmos卖给Walmart。怎么卖呢?当然是做个新系统。这个新系统要摈弃掉Cosmos老的存储,改用Azure Blob Store。查询语言要摈弃SCOPE,改用更SQL的语言,也就是后来的U-SQL。为了确保他的战略能实施,Raghu在重组的时候也杀点鸡给猴子们看。Cosmos一度进入了风雨飘摇的状态,很多老人都走了,我也差不多在Raguh入职一年后走了。

这个产品做得不顺利,但是不管怎么样,延期又延期之后2016年还是发布了,名字就是Azure Datalake。数据湖的概念从此开始流传开来。这个数据湖,总体来说是这样一个产品。它包括Azure Datalake Store和Azure Datalake Analytics。前者是存储,有API提供。后者是分析平台。它的分析平台支持Hadoop的那一套,也支持一个全新的U-SQL。如果你想要同时读取在Datalake里面的数据和Datalake外面的数据做分析的话,那就只有U-SQL可以选了。

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
关键词 >>微软 数据湖 Azure
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接