揭秘大数据安全

作者：媒体转发时间：2019-07-27 09:20

字号

旧闻：2018年8月28日，网传华住旗下多个连锁酒店开房信息数据遭泄露售卖。泄露的数据包含汉庭、美爵、禧玥、漫心、诺富特、美居、CitiGo、桔子等酒店用户详细信息。涉及53G华住官网注册资料，大约1.23亿条记录;22.3G酒店入住登记资料，约1.3亿人身份证信息;66.2G酒店开房记录，约2.4亿条。随后华住集团发布申明已开始核实事件真实性，并已报警处理。

揭秘大数据安全

数据之于大数据项目就犹如泉水之于锦鲤，其重要性不言而喻，必然是企业极力保护的核心资产之一。那大数据安全又是什么呢?是确保数据在收集、传输、处理和存储时的安全?那这个常见的数据安全又有何异同?是说通过大数据分析来提高企业安全?但这更像是大数据在安全领域的运用。

没关系，我们先不急着下定义，让我们先从几个不同的方面来感受下大数据安全的轮廓。

一、大数据语境下都有哪些安全问题?

1. 新工具带来新的安全风险

大数据用到多种新工具，这些新工具在诞生之初并没有把安全作为第一要素进行考虑，因此是存在安全隐患的，而工具在被大规模运用后这些安全隐患会逐步凸显出来。以MangoDB为例，它假设自己运行在企业内网环境中，且假设内网环境是安全可靠的，因此MangoDB默认情况下无需身份验证即可登录。有类似问题的还有Redis的早期版本。可想而知，如果这样毫不设防的数据库如果出现在了互联网上，势必会造成严重的安全问题。

在2016年底之后，出现了一波针对MangoDB的勒索攻击浪潮，黑客们发现互联网上有大量无需身份验证即可登录的MangoDB实例，其中一些数据库中还保存着大量高价值数据。于是黑客们把数据库中的数据进行了加密，并要求受害者支付赎金才能换回数据。美国某个医疗机构就是这么中招的，其存放了大量患者个人及医疗数据的MangoDB被黑客攻击，医院最终被迫无奈向黑客支付了赎金才换回了数据库的控制权，但谁知道在此期间攻击者有没有利用MangoDB的漏洞，以MangoDB为跳板进而已经入侵了企业内部网络呢?谁知道攻击者有没有把数据拖库，进而转卖给了第三方呢?

2. 数据污染

大数据系统收集的数据来自数量众多且类型各异的来源，并且对这些数据进行分析处理后生成更具价值的数据，或者基于对数据的分析处理来触发后续业务逻辑。这一点在运用了大数据的物联网系统中更为常见。由于物联网系统中部署了数量庞大的终端设备，各种各样的传感器、控制器都在产生数据并回传给数据平台做处理。

大数据系统中的数据流动路径就像是树根，每个根节点产生的数据都会对整棵树的生长产生影响。攻击者自然也明白这一点，破坏这些根节点就能破坏整个大数据系统的正常运行。例如，如果是大量破坏根节点使其不能生产数据，大数据系统将面临“巧妇难为无米之炊”的困境;如果是暗中替换或者篡改了某些根节点生产的数据，大数据系统的行为可能被攻击者操控;如果攻击者能够伪造根节点向大数据系统传递错误的，或者别有用心构造过的数据，那么大数据系统最终产出的数据价值可能大打折扣。

试想一下，某个养老院中实施监控老年人脉搏、心跳、血压等等数据，并基于对这些数据的分析处理而触发相应的警报、自动呼叫医护人员的系统，如果攻击者伪造数据制造出假警报，必将造成急救资源的浪费。而如果攻击者能够篡改心跳数据，当受害者心脏病突然发作时，系统可能无法监控到异常从而无法做出回应，受害者的人身安全必然受到严重威胁。

3. 个人隐私面临更多的风险

匿名化处理后的数据，在配合上其他维度的数据后，依然可以识别出用户身份。例如就算把数据记录中的姓名、身份证号等能够直接识别出某个个体的信息隐去，但如果有其他维度的带有个体标识信息的数据集合做参考，那么依然能识别出这些匿名化的数据记录多对应的个体。

现实中的例子有很多，比如Netflix对数据做了匿名化处理，但这些数据中的用户依然可以被识别出来，因为其中一些用户同时在Netflix和IMDB上给相同的电影做了评分，故而只需把这些数据关联起来就能达到识别用户的目的。

揭秘大数据安全