漫谈大数据之中篇

作者:媒体转发 时间:2018-09-21 16:35

字号
【新品产上线啦】51CTO播客,随时随地,碎片化学习

 前言

漫谈大数据之中篇

上次作者分享了大数据的前序,本次和下次将继续为读者分享大数据方面的拙见。从大数据的定义、发展历程,到大数据VS小数据、大数据通用技术,最后从安全行业大数据的角度,漫谈大数据相关概念及其在应用实践中的一些思考,同时分享大数据在流量分析和日志的简单实践,期望能给读者带来对大数据一个更好的认知和应用。

上次前篇漫谈大数据的定义、发展历程,中篇我们将从大数据VS小数据、以及大数据通用技术简要的介绍对大数据方面的理解。

小数据 VS 大数据

先举个简单例子吧,比如学生成绩管理系统,在不同的情况下这个系统的架构是完全不同的。下面分三种情形讨论:

(1)如果仅仅做一个班级的学生成绩管理,那么最简单的方法是采用一个EXCEL,然后利用一些EXCEL分析的函数等对成绩进行管理、排序、查找和保存等操作。打开EXCEL,把成绩录入即OK,多简单高效,一目了然,用EXCEL也可以导出很多数据分析的报表,一个EXCEL的中高手绝对能搞定这简单的需求。

(2)如果是管理一个学校的成绩呢,那如果还用EXCEL来管理,估计需要很多的EXCEL统计信息。不仅需要的量多,那如果两个班级进行横向比较怎么办?如果按照某科目进行纵向排名怎么办?显然用EXCEL不是最好的解决方案了,就算EXCEL的高手也望尘莫及,那就需要我们学习IT刚刚毕业的小菜鸟四两拨千斤,一个简单的数据库就搞定了。犹记得当年在那个小机房,用着纯平的显示器,拿着上机卡,运用SQL SERVER 2000和Visual C++6.0,灵活应用成绩录入、查询和保存等按钮的学生成绩管理系统,一切搞定!

(3)当然,往往事情没那么简单,永远也没有一切搞定的时候,如果用当前互联网的思维,我们要管理的不仅仅是一个学校的成绩,我们要管理整个省各大高校的成绩,甚至全国各大高校的成绩,如果思维再发散一些,我们要做个系统,不仅仅是管理学生的成绩,我们还想要通过学生平时的作业情况,上课考勤情况,以及学生在社交网络上的所有相关信息以及所喜欢的电影,兴趣爱好等去综合分析预测这个学生本学期的成绩,那怎么办?这里,我们不仅仅简单的存结构化的成绩信息了,数据的来源更加多源,需要分析的数据更加多元化,并且数据量和数据组织形式让SQL SERVER和ORACLE无法存储处理和查询。比如由于数据量太大用ORACLE查询十分钟都无法返回结果。那么,我们需要大数据技术,采取新的数据架构体系来管理分析这些数据,这也是何谓大数据中所谈到的。

这就是所谓的小数据和大数据。小数据(量),采用传统的关系型数据库处理起来更为简单高效,比如情形1和情形2。大数据(量),采用传统的数据库无法处理,那只能用大数据的技术架构去分析处理,比如情形3。那是否可以用大数据的技术处理小数据呢,当然可以。但是,不是很好的解决方案。首先,系统越复杂,所要处理的问题越多,不仅仅实现上困难,而且在维护也举步维艰。其次,采用大数据的技术不会带来更好更高效的结果,相反,小数据采用传统的关系型数据库,无论技术还是实现方式更为成熟,数据查询分析的速度更为高效。打蚊子用高射炮浪费资源不说,而且不一定好使,还不如一个打蚊拍来的更为合适。

漫谈大数据之中篇

当然,上面大数据与小数据的讨论主要体现在数据量和处理方式方面,更核心的大数据和小数据有很多内容。《大数据时代》作者维克托•舍恩伯格提出了大数据三原则:要全体不要抽样、要效率不要精确、要相关不要因果。从中可以看出,大数据时代的核心特征是相关性,其特点是全量、多元、数据价值密度低等。而小数据应该指采用调查方法获得的抽样数据或者是结构化的海量数据,通常采用传统的统计分析方法,往往依托数理统计的大数定律,描述抽样理论下样本最终服从中心极限定理的正态分布理论,强调描述性统计学和推断统计学。两者之间的对比可以简略的概括为:大数据重预测、发现、相关、全体、感知;对应的小数据重解释、实证、因果、抽样、精确。从这也可以看出,大数据与小数据没有孰好孰坏,在做好大数据的基础上,能够提取具有鲜明特征,具有高密度价值的小数据,从个体角度量身定做,进行更加精准的个性化推荐和预测,也是极好的。

漫谈大数据之中篇

大数据包含哪些技术?

大数据包含哪些技术呢?引入杨义先老师的最新力作《安全简史》里面的例子,咱们先看看大数据产业和垃圾处理回收产业。

通俗的说,大数据产业,无论从工作原理、原料结构,还是从利润率等方面来看,能够与大数据产业相比拟的,也许只有垃圾处理和废品回收!

漫谈大数据之中篇

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
关键词 >>大数据 管理 系统
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接