加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

谷歌流感趋势分析失败:大数据分析为何出错?

发布时间:2021-06-12 09:36:06 所属栏目:运营 来源:互联网
导读:跟着大数据成为各类百般产物的贸易噱头,越来越多的人开始相识大数据的魅力,对付大数据而言,巨量的数据来历是其说明精确性的基础担保。然则,数据量大到必然程

跟着大数据成为各类百般产物的贸易噱头,越来越多的人开始相识大数据的魅力,对付大数据而言,巨量的数据来历是其说明精确性的基础担保。然则,数据量大到必然水平之后,想要担保数据的精确度就会变得非常艰巨,响应的说明功效也就很难保障。

 

  谷歌

 

  之前,谷歌公司发明流感疫情的成长状态可以和某些要害词被搜刮的频率很好的接洽起来,因此成立了“谷歌流感趋势”(GFT)模子,GFT将大量关于流感的谷歌搜刮数据举办统计汇总,颠末说明之后与美国疾病防控中心的监测数据举办比对。这一次,大数据失败了,GFT说明猜测出的功效和美国疾病防控中心的数据相差近两倍。

 

  尽量谷歌对其搜刮引擎的算法不绝的做出调解和改造,但仍旧很难为GFT提供行之有用的辅佐,究竟上,算法的变革反倒是很也许为GFT的猜测功效发生倒霉的影响。好比,用户搜刮“头痛”等词汇时,谷歌的相干搜刮算法也许会将此功效和流感接洽起来,纵然此用户原来并不是要搜刮流感相干内容,从而为GFT提供了禁绝确的数据。

 

  找准数据是条件,数据并非越大越好

 

  谷歌流感趋势的失败作为一个经典的例子,为我们指出了大数据在应用中的一些题目,或者大数据今朝还并不是全能的,又或者数据并不是越大越好。

 

  险些在全部先容大数据和云计较的文章中,城市提出足够多的数据是实现技能的条件,而且数据越多越全面,得出的说明功效也就越精确,在抱负环境下这样说虽然是没错的,然则在现有的技能不能担保数据来历精确度的环境下,大量的数据反而会加大说明的难度。

 

  大数据说明所应用的算法长短常伟大的,由于它要将成万万上亿的数据逐一说明匹配,假如数据来历是像搜刮引擎这种伟大度自己就很高的处所,那说明就会变得更坚苦,好比前文中提到的,许多搜刮词只是看起来和流感有关,实则无关,像“头疼”这种。

 

  我们回首一下大数据的乐成应用,根基上都是在数据源较量单一的规模,好比流媒体的用户操纵风俗,智能交通的车辆位置速率信息等,这些数据的收罗方法与场所非凡,精确度较高,因此可以获得乐成应用。而像搜刮引擎收罗的数据,固然有着复杂的数据量,但无关数据所占比例也较高。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读