加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据的错误领略:数据统计≠大数据

发布时间:2021-06-17 08:03:22 所属栏目:大数据 来源:互联网
导读:我既没有资格代表学术界,更没有资格来鉴定谁是谁非。我只能就本身的事变经验,来谈一下我眼中的大数据。 什么是大数据? 百度百科对大数据的界说是这样的:大数

我既没有资格代表学术界,更没有资格来鉴定谁是谁非。我只能就本身的事变经验,来谈一下我眼中的大数据。

 

什么是大数据?

 

百度百科对大数据的界说是这样的:大数据(big data)或称巨量资料,指的是所涉及的资料量局限庞大到无法透过今朝主流软件器材,在公道时刻内到达撷取、打点、处理赏罚、并清算成为辅佐企业策划决定更起劲目标的资讯。

 

Gartner给出了这样的界说:“大数据”是必要新处理赏罚模式才气具有更强的决定力、洞察发明力和流程优化手段的海量、高增添率和多样化的信息资产。

 

小我私人以为Gartner的界说更为贴切。“新处理赏罚模式”是一个很要害的词汇,这也是我所领略的“大数据”区别于传完好计说明等最要害的特性之一。这个所谓的“新处理赏罚模式”有两层寄义:

 

因为海量的数据,必要更高效的存储和处理赏罚技能,Hadoop成为了大数据期间的符号;

 

假如你以为大数据就便是Hadoop,那就大错特错了。Hadoop只是大数据期间的一个须要前提,大数据尚有一个明明的符号是数据发掘和人工智能的细密团结。这也是我领略的“大数据”与此刻许多所谓“大数据”项目最明明的区别之一。我会在后头的案例中给各人睁开。

 

除了上面的“新处理赏罚模式”上的区别,小我私人以为尚有一个最首要的区别是:数据统计说明是基于已稀有据的纵向归类,而 大数据是基于对已有海量数据的处理赏罚,对还未发生的数据作出猜测和保举。数据统计是已经产生的工作,而大数据每每被用于还没有产生的工作猜测可能保举中 。

 

猜测和保举是怎样实现的

 

今朝首要的 保举算法大抵可以分为两类。一个是基于举动,一个是基于内容 。虽然,针对差异的规模,差异的猜测和保举的工具,又会有十余种算法。这就不是本文睁开的内容了。

 

基于举动的说明,顾名思义,即对用户在互联网、移动互联网留下的“陈迹”,即赏识、点击、保藏、购置、二次购置的说明,得出将来会选择购置的猜测和保举功效。基于举动的说明,属于群体伶俐,综合操作群体用户的举动偏好。用户之间会彼此影响,越发切合实际天下中的用户举动。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读