加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

发布时间:2021-05-29 06:12:55 所属栏目:大数据 来源:网络整理
导读:按:【数字智能三篇】 今朝“大数据”、“保举体系”、“深度进修”是数字智能规模的热门研究偏向,相干的书本也很火热,好比“大数据”仅这两年就出书了许多本,让一样平常人看的目眩凌乱。 本系列共分三篇,力争仅以一页纸的篇幅来体系完备地先容以上这三个方

按:【数字智能三篇】 今朝“大数据”、“保举体系”、“深度进修”是数字智能规模的热门研究偏向,相干的书本也很火热,好比“大数据”仅这两年就出书了许多本,让一样平常人看的目眩凌乱。

本系列共分三篇,力争仅以一页纸的篇幅来体系完备地先容以上这三个偏向,深入浅出。以下内容摘自2014年新出书的《3D打印:三维智能数字化缔造》一书,有删节,完备内容及目次详见链接:http://www.sigvc.org/why/book/3dp/index.htm?

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”


-----------------------

“大数据”(Big Data)是“数据化”趋势下的肯定产品。数据化带来了两个重大的变革。一是数据量的爆炸性剧增,最近几年所发生的数据量等同于2010年早年整小我私人类文明发生的数据量总和。早年网上的3D模子很是少,而今朝仅Shapeways这一个网站上的3D模子,就已打破了100万个。二是数据来历的多样化以及异构性,好比先容某款手机产物的网页,既有文本、语音,尚有视频、图像、3D模子等,从各个方面展示了该产物的特性,这种多源性也有助于滤除数据噪声、交错验证。数据间是否具有布局性和关联性,是“大数据”与“大局限数据”的重要不同;“大数据”这一观念中包括着对数据工具的处理赏罚举动,即快速发掘和揭示个中蕴含着的有代价信息。

大数据的特点可总结为4个“V”——Volume(体量庞大)、Variety(范例多样)、Value(代价密度低,贸易代价高)、Velocity(处理赏罚速率快)。牛津大学互联网研究所维克托·迈尔·舍恩伯格传授指出,“大数据”所代表的是当今收集社会所独占的一种新型手段──通过对海量数据举办说明,来得到有庞大代价的产物和处事或深刻的洞见。譬喻,你在网上买书时,网站按照你之前的购置记录快速展望你的阅读范例(好比你喜好魔幻武侠小说),然后把当前最热点的3部魔幻武侠小说表现在网页最精明的位置,以便引发你的购置欲。因此,可操作大数据对客户群举办细分,通过说明其既往举动,展望他们隐藏的意图、风俗和打算,以实现精准营销。

大数据期间会倾覆很多传统思想,在哲学层面浮现为“履历主义”比“理性主义”更多地被人们所回收。早年人们总在探寻题目的因果:事物为什么会这样?但此刻,人们更体谅结论。好比,从大量数据说明得出冬天第一场雪事后懂得菜价值会涨或许两倍,那么商家会更愿意操作这个结论来存眷气候预告并伺机囤积懂得菜,而不会像专家那样坐在一路接头为什么第一场冬雪后懂得菜会涨价、为什么是涨两倍而不是涨3.2倍。大数据也意味着对服从的追求,而不是去过度追求数值上的准确。

专家的代价在于因果说明,而大数据却放弃对因果相关(Causality)的追求,仅存眷相干相关(Correlation)。也就是说,只必要知道“是什么”,而不必要知道“为什么”。这种变革已经远远打破了技能层面,将对人类熟悉天下的哲学观发生重大影响。因果相关只是相干相关中非凡的一种,大数据汇报我们许多环境下只要存眷相干相关以做出猜测就够了。另一种也许的表明是,数据是不会哄人的,而人(纵然是专家)的看法每每是主观和成见的。虽然,我们并不是说逻辑性的因果相关不重要,而是我们一开始每每会迷失在零乱繁杂的数据海洋中、毫无头绪,以是这时就可起首想步伐得到统计意义上的相干相关,然后再思量从中提取出逻辑性的因果相关。这着实很好领略:当我们对数据无法直接得到可表明性时,那就试着先调查出这些数据的统计纪律性(“是什么”),然后再针对这些纪律举办表明(“为什么”)。

大数据尚有一个庞大的上风是,可操作通用的的统计学模子取代各类百般的专家体系,“以稳固应万变”。譬喻,基于大数据(包含万象的语料数据),Google的翻译算法可同一实现几十种说话(英语、汉语、法语、韩语、拉丁语等等)的互译,而无须针对每种说话定制专门的语法专家体系。IBM?公司的?Fred Jelinek院士是操作大数据举办统计语音辨认与合成的闻名学者,他曾说过一句闻名的论点:“每当我开除一个说话学家,语音辨认体系的机能就会改进一些”。

大数据是收集社会在把握海量数据网络、存储和处理赏罚技能基本上所发生的一种举办判定和猜测的手段。专家每每但愿归纳出一个模子,而在大数据期间,数据直接本身“措辞”,变得比模子更重要,由于再伟大的模子也无法包含万象。而当数据“大”(多)到能对险些整个样本空间举办充实包围时,就可以削弱对理论和模子的依靠,不再必要通过模子去经验“从非凡归纳(Induce)到一样平常,再从一样平常演绎(Deduce)到非凡”的传统流程,而是操作大数据去直接实现“从非凡到非凡”的判定和猜测(这种直接的方法也被称为转导,Transduce),由于大数据中已经包括了足够多的“非凡”样本以供参考。换言之,此时数据自己即是模子,也即大数据可实现全样而非抽样(实际中要得到代表真实环境的抽样很是难,好比也许会由于抽样不足全面而遭遇“黑天鹅变乱”)。

大数据将给整个社会带来从糊口到思想上革命性的变革:人们所接管的处事,将以数字化和本性化的方法泛起,借助3D打印技能和智能数字化,零售业和医疗业也将实现数字化和本性化的处事。

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

扩展:除了大数据,尚有所谓的小数据(iData)。小数据跟大数据的基础区别在于:小数据以单小我私人(个别)为独一工具,重点在于深度,即像一位忠诚过细的“小我私人管家”那样对小我私人数据举办全方位、全天候地深入准确说明,同时还可主念头动地配置各类外界会见权限以掩护小我私人隐私;而大数据则偏重在某个规模(群体),大范畴、大局限地举办数据的全面网络处理赏罚说明,偏重点在于广度。

今朝,Hadoop是最为风行的大数据处理赏罚平台,是一个开源的、可运行于大局限集群上的漫衍式并行编程框架,由漫衍式文件体系(如HDFS)、数据库(如HBase,属于NoSQL范例的数据库)、数据处理赏罚模块(如漫衍式编程模子MapReduce)等构成。借助于Hadoop,措施员可以轻松地编写漫衍式并行措施,将其运行于大局限集群上,从而完成大数据的计较。除了Hadoop,另外尚有另一个高效的漫衍式并行计较体系Spark,通用性更好、迭代运算服从更高、容错手段更强,今朝其成长势头正逐渐盖过Hadoop。

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

扩展:数据发掘不只与统计进修有关,并且与信息论细密相干。所谓信息,按照信息论首创人香农(Claude Elwood?Shannon)的说法:“往往在一种环境下能镌汰不确定性的任何事物都叫做信息”。在信息论中,行使信息熵(Entropy、Shannon Entropy,简称:熵)来评估信息量的巨细,即不确定性的怀抱:

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

通过上式可以看出信息熵被界说为信息(

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

)的祈望值,单元为比特(bit)。变乱的不确定性越大,则信息熵就越大(也即把它搞清晰所需的信息量就越大)。好比,“人咬狗”对比于“狗咬人”是小概率变乱,也许性小,不确定性大,因此熵更大。

前提熵(Conditional Entropy)的界说:

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”


可证明

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

,也即假如增进了(与

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

相干的)

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

的信息,

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

的不确定性降落了。相同地,尚有

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”


那么,

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”

到底有多相干呢?我们可通过互信息(Mutual Information)来量化地怀抱“相干性”:
? ? ? ??

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”


好比,“计较机”和“鼠标”这两个词的互信息就比“计较机”和“牙刷”的互信息更大,由于前者更相干。
相对熵(Relative Entropy),又叫KL间隔(Kullback-Leibler Divergence,KL散度)、信息增益(Information Gain)、信息散度(Information Divergence):
? ? ? ? ? ? ? ?

【数字智能三篇】之一: 一页纸说清晰“什么是大数据”


差异于前面的熵和互信息(它们权衡的是随机变量的相关),相对熵权衡的是两个概率漫衍函数的差别水平。

from:?http://blog.sciencenet.cn/blog-4099-781642.html

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读