漫谈大数据之前序
作者:CQITer小编 时间:2018-09-13 16:24
前言

本文共分为上下两篇。从大数据的定义、发展历程、大数据VS小数据、大数据通用技术,以及安全行业大数据的角度,漫谈大数据相关概念及其在应用实践中的一些思考,同时分享大数据在流量分析和日志的简单实践,期望能给读者带来对大数据一个更好的认知和应用。
此篇为前序,我们将集中为大家解释大数据的定义、发展历程。
BIG DATA
何谓大数据
顾名思义,大数据就是很大的数据呗!以前叫数据处理,现在叫大数据处理,貌似现在不加个大字,都不好意思和别人说,加上大字,搞成大数据,瞬间高大上了。以前还有说法是海量数据,想想,海量比大应该更加形象生动。记得当年笔者博士论文题目就是海量数据…挖掘。大数据这个概念目前这么耳熟能详,也就是这几年的事情。那 “大数据”究竟是个神马?咱们先看几个大数据的定义。
维基百科中将大数据定义为:“Big data is a term for data sets that are so large or complex that traditional data processing applications are inadequate.”,即:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。
IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。
国际权威咨询机构Gartner说:“大数据,就是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”。
信息专家涂子沛在著作《大数据》中认为:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。
麦肯锡全球研究所说:“大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征”。
从这几个定义上来看,我们至少可以看出,从“数据”或者“海量数据”到“大数据”,不仅仅是修饰上的变化,也绝不仅仅是大部分人以为的海量数据和大数据是等同概念;不仅仅是数量上的差别,不是数据量多、大就是大数据了。那是什么呢?这里个人以偏概全总结几点:
(1)大数据的“大”是指用目前主流的软件工具无法处理或者无法快速处理的大,需要采用大数据的技术对数据进行处理;
(2)大数据是为了处理海量数据而催生的一种新的架构、新的技术,它存在的主要目的是快速、高频的处理海量异构的数据;
(3)大数据之“大”的基本属性是“量大”,但是更内涵的属性是“价值大”。大数据技术的核心价值是通过采用大数据技术对海量数据的存储检索,查询分析,数据挖掘等,产生数据简单统计分析所无法带来的新的价值,新的发现。
个人认为,这三点是根据定义总结出来的大数据核心思想,三个定义和内容并非并列重复的,它们是一个层级推进的关系。而这三点中,最能体现大数据核心的是第三点,采用大数据技术挖掘分析新知识、创造新价值。
当然,前些年听到的学术报告中,80%以上的Slide里面会有一页是所谓的5V,即大数据的五个主要特征: Volume、Velocity、Variety、Value、Veracity。这其实和上面提到的三点是一脉相承的,至于5V或者更多V的具体内容就不多赘述,读者自行Baidu即可知悉。

区别于传统意义上的数据处理方式(数据挖掘、数据仓库、OLAP等),在“大数据时代”,数据已经不仅仅是需要分析处理的内容,更重要的是人们需要借助专用的思想和手段从大量看似杂乱、繁复的数据中,收集、整理和分析数据足迹,以支撑社会生活的预测、规划和商业领域的决策支持等。所以,各大互联网公司越来越看重数据的价值,各大创业公司采用大数据分析的技术进行辅助决策,而大数据技术也成为了老生常谈的一个话题,成为很多公司的噱头和提升格调的一种姿态。
大数据真的是噱头么?发展历程梳理



