揭秘大数据安全
作者:媒体转发 时间:2019-07-27 09:20
旧闻:2018年8月28日,网传华住旗下多个连锁酒店开房信息数据遭泄露售卖。泄露的数据包含汉庭、美爵、禧玥、漫心、诺富特、美居、CitiGo、桔子等酒店用户详细信息。涉及53G华住官网注册资料,大约1.23亿条记录;22.3G酒店入住登记资料,约1.3亿人身份证信息;66.2G酒店开房记录,约2.4亿条。随后华住集团发布申明已开始核实事件真实性,并已报警处理。

数据之于大数据项目就犹如泉水之于锦鲤,其重要性不言而喻,必然是企业极力保护的核心资产之一。那大数据安全又是什么呢?是确保数据在收集、传输、处理和存储时的安全?那这个常见的数据安全又有何异同?是说通过大数据分析来提高企业安全?但这更像是大数据在安全领域的运用。
没关系,我们先不急着下定义,让我们先从几个不同的方面来感受下大数据安全的轮廓。
一、大数据语境下都有哪些安全问题?
1. 新工具带来新的安全风险
大数据用到多种新工具,这些新工具在诞生之初并没有把安全作为第一要素进行考虑,因此是存在安全隐患的,而工具在被大规模运用后这些安全隐患会逐步凸显出来。以MangoDB为例,它假设自己运行在企业内网环境中,且假设内网环境是安全可靠的,因此MangoDB默认情况下无需身份验证即可登录。有类似问题的还有Redis的早期版本。可想而知,如果这样毫不设防的数据库如果出现在了互联网上,势必会造成严重的安全问题。
在2016年底之后,出现了一波针对MangoDB的勒索攻击浪潮,黑客们发现互联网上有大量无需身份验证即可登录的MangoDB实例,其中一些数据库中还保存着大量高价值数据。于是黑客们把数据库中的数据进行了加密,并要求受害者支付赎金才能换回数据。美国某个医疗机构就是这么中招的,其存放了大量患者个人及医疗数据的MangoDB被黑客攻击,医院最终被迫无奈向黑客支付了赎金才换回了数据库的控制权,但谁知道在此期间攻击者有没有利用MangoDB的漏洞,以MangoDB为跳板进而已经入侵了企业内部网络呢?谁知道攻击者有没有把数据拖库,进而转卖给了第三方呢?
2. 数据污染
大数据系统收集的数据来自数量众多且类型各异的来源,并且对这些数据进行分析处理后生成更具价值的数据,或者基于对数据的分析处理来触发后续业务逻辑。这一点在运用了大数据的物联网系统中更为常见。由于物联网系统中部署了数量庞大的终端设备,各种各样的传感器、控制器都在产生数据并回传给数据平台做处理。
大数据系统中的数据流动路径就像是树根,每个根节点产生的数据都会对整棵树的生长产生影响。攻击者自然也明白这一点,破坏这些根节点就能破坏整个大数据系统的正常运行。例如,如果是大量破坏根节点使其不能生产数据,大数据系统将面临“巧妇难为无米之炊”的困境;如果是暗中替换或者篡改了某些根节点生产的数据,大数据系统的行为可能被攻击者操控;如果攻击者能够伪造根节点向大数据系统传递错误的,或者别有用心构造过的数据,那么大数据系统最终产出的数据价值可能大打折扣。
试想一下,某个养老院中实施监控老年人脉搏、心跳、血压等等数据,并基于对这些数据的分析处理而触发相应的警报、自动呼叫医护人员的系统,如果攻击者伪造数据制造出假警报,必将造成急救资源的浪费。而如果攻击者能够篡改心跳数据,当受害者心脏病突然发作时,系统可能无法监控到异常从而无法做出回应,受害者的人身安全必然受到严重威胁。
3. 个人隐私面临更多的风险
匿名化处理后的数据,在配合上其他维度的数据后,依然可以识别出用户身份。例如就算把数据记录中的姓名、身份证号等能够直接识别出某个个体的信息隐去,但如果有其他维度的带有个体标识信息的数据集合做参考,那么依然能识别出这些匿名化的数据记录多对应的个体。
现实中的例子有很多,比如Netflix对数据做了匿名化处理,但这些数据中的用户依然可以被识别出来,因为其中一些用户同时在Netflix和IMDB上给相同的电影做了评分,故而只需把这些数据关联起来就能达到识别用户的目的。

4. 存储大数据处理后的高价值数据的应用系统,其本身就是被攻击的目标




