主页 - IT -

高手对决 柏睿数据让数据深度分析挖掘赢在毫秒间

作者:网友投稿 时间:2019-04-04 01:23

字号

  “再快一天,我就能赶上Deadline。”

  “再快一分钟,我就能在9:00打卡。”

  “再快一秒,我就能拿下百米赛跑第一。”

  每天,人们都在与时间赛跑,希望在有限的时间内完成更多事情,挖掘更大价值。尤其在物联网技术、云计算、人工智能、大数据技术等迅猛发展的信息时代,人们在转瞬间就能感知万物的变化,预知未来。

  日前,谷歌发布了R支持Google Cloud Platform(GCP)大规模应用。据谷歌称,云计算的兴起为R开辟了新的机遇,使用GCP for R可以避免限制理解数据的基础设施障碍,并构建大型模型来分析以前需要在高性能计算基础架构上进行大量前期投资的大小数据集。

  众所周知,R语言作为一种数据分析和机器学习的专业语言,是当今数据科学领域流行的免费开源编程语言之一,在数据分析与机器学习领域已经成为一个重要的工具,目前有75%左右的数据科学家使用R语言,有35%左右的数据科学家将R语言作为统计分析的首选工具。尤其在新一轮科技与产业变革下,人工智能深刻地改变着人类的生产方式,R语言在技术应用方面也取得了较大的突破,如符号计算、模式识别、机器翻译、机器学习、问题求解、逻辑推理和定理证明、分布式人工智能、就算计视觉等方面。

  R作为一套完整的数据处理、计算和制图软件系统,能够带来强大的数据集群分析能力和运算时效能力,这也是各大人工智能、云计算、大数据分析、数据库等产商赖以推崇的原因。

  那么,在性能与场景上是否有要求?

  目前,单机版本的R开源软件,只能够在相对小规模的数据集上执行高效分析运算(难以⾼效处理数十GB级的数据分析),而针对海量并行的数据时代,需要更为强悍的并行集群R来处理大规模并行数据,实现建模运算,保障在市场竞争中处于绝对优势。柏睿数据的ParallelR可以对内存数据库、分布式文件系统中的数据进行大规模并行建模运算,而且数据处理、加载时间更快。

  柏睿数据的ParallelR与R紧密结合,用户通过R接口进入ParallelR的命令行界面,输入各种指令操作,指示ParallelR集群加载、清洗、分析和统计各种数据集。ParallelR提供的多种统计算法,并对统计数据分析算法专为分布式运算环境重新开发的分布式算法实现,也通过R的软件包方式展现给用户,供用户在数据分析过程中调用从算法包方面比较,ParallelR把数据处理的多种操作也包含在算法包里面,兼容更多的数据类型,功能更加强大,模型更加优化,在部分情况下预测结果更准确,模型结果更加丰富,使用户可以更加方便的进行建模分析。多种情况下,能够避免了需要花费大量时间的哑变量转换操作,简化了建模流程,还避免了模型在哑变量转换后资源急速膨胀的情况。

  从时间上来比较,ParallelR支持分布式模型运算,当在数据量较大,传统单机R已经无法运行建模时,ParallelR还能够轻松应对。在测试过程中,我们观察到ParallelR的分布式运算模式,不仅可以支持对大数据执行建模分析,同时能够⼤幅度缩短建模分析的时间,通过利用四种算法分别用来建立航班准点计算模型,在4MB小数据和12GB全量数据两种情况下的测试对比。我们看到在小数据和更大规模数据两种情况,ParallelR的建模运算性能都全面超越单机R的性能。单机R能够支持这些算法,但它的算法包在对诸如哑变量的要求使单机R对哪怕大⼀些的数据集都可能由于资源不够而无法完成建模的运算。另外,通过对比单节点ParallelR和3节点ParallelR,我们看到ParallelR能够线性增加更多的处理能力,使建模运算性能随之线性扩张。

  纵观当前技术发展的新局面,AI技术也在不停地迭代更新,不仅要依托像R语言等新技术、新产品来提升自己的竞争力,还必须积极思考自己的行业将如何进行升级。其中,姿势很重要:主动拥抱趋势优于被动卷入浪潮;速度和时机也很重要:因为冲浪时,一旦没抓到“起乘”瞬间,下一波就会被打下潮头。

  在今年两会报告中,“促进新兴产业加快发展。深化大数据、人工智能等研发应用,培育新一代信息技术,壮大数字经济”引发了广大关注。李克强总理提到:“思危方能居安。在充分肯定成绩的同时,要清醒看到我国发展面临的问题和挑战。自主创新能力不强,关键核心技术短板问题凸显。我们一定要直面问题和挑战,勇于担当,恪尽职守,竭尽全力做好工作,绝不辜负人民期待!”

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
关键词 >> 高手,对决,柏睿,数据,深度分析,挖掘,毫秒
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接