分享 | 运营商大规模数据集群治理的实践指南
作者:网友投稿 时间:2019-05-17 21:38

写在开头的话
Q: 军哥,你们运营商行业的大规模集群,都有啥特点啊?
A: 我们集群主要是承载B域、信令和互联网日志等去标识化数据,简单的说,有三个特点:
1)集群规模较大:数千节点规模,近百PB数据量,日新增处理数据百TB以上;
2)组织干系人多:数据平台开发运维过程涉及到数百人以上的不同团队组织协同;
3)数据合规要求高:数据租户服务涉及到数据安全、用户隐私保护的合规要求高。
Q: 好吧,听起来,要搞定这样的集群,有难度呀!那何时要关注集群的治理呢?
A: 好问题!一般来说,当数据质量问题、数据交付及时性、数据安全问题需要耗费极高的应对成本,或者说,当你经常会碰到以下类似的问题时,就该考虑做系统化的集群治理工作了。

Q: 看起来,集群治理好像需要做很多配套的工作,实际上会有多大的产出效果呢?
A: 说出来,你可能不太信,就拿针对某集群治理的效果为例:在处理数据量翻倍的情况下,集群资源负载降低30%以上,综合计算节省数百台节点,每年节省投入上千万元;减少垃圾数据、测试数据、中间数据、过程数据,占总存储15%以上;核心产品模型运行时长,缩短30%-80%。
一、集群治理的定位
Q: 我以前听说过数据治理,你这里说大规模数据集群的治理,有什么具体差异吗?
A: 好问题!不过要搞清楚这块,得先了解一下我们数据资产管理体系建设的实施路径——主要分三个子工程,同步开展实施推进:

工程一:搭建核心业务数据治理框架,包括基础平台的建设、治理规范的制定,元数据管理、数据血缘和数据质量工具开发和应用实践,构建上层数据产品体系和数据能力开放平台,让数据多用活用,形成符合公司业务和组织协作特点的治理文化。
工程二:实现全域数据计算集群的深度治理,完成全域数据治理元数据的自动化采集、存储和分析,构建数据能力开放平台多租户专项治理机制,沉淀数据治理中台能力,基于大数据集群底层核心组件(如YARN、HDFS)的深入洞察,孵化出数据集群治理的应用。
工程三:完善治理机制体制建设,构建数据资产管理体系,并利用该系统的运营逐步重塑优化业务流程,实现可支撑全业务流程的成本评估机制,让数据价值持续攀升。
回到你刚才的提问,数据治理基本上可以理解为工程一的核心目标;大规模集群的治理对应工程二,它需要长期支撑工程一的具体建设任务,并为数据资产管理体系的运营夯实基础。
二、集群治理的背景
Q: 你刚才说的好像很有道理,但是我还是不太明白,为何不是在数据治理工程中扩展一个子任务去做,而是要另起炉灶,搞一个新的大工程来做数据集群的专项治理?
A: 好问题!恭喜你!你快要触摸到数据集群治理问题的核心了。我们不妨再捋一下数据集群治理的背景,主要是遇到的历史部分集群无序建设的种种问题:

这些问题可进一步分为几类,简单分析完你就自然明白了:



