人们应该知道的大数据术语
副问题[/!--empirenews.page--]
Apache软件基金会(ASF):提供了很多大数据的开源项目,今朝有350多个项目。是专门为支持开源软件项目而办的一个非红利性组织。在它所支持的Apache项目与子项目中,所刊行的软件产物都遵循Apache容许证。 Apache Kafka:以出名的捷克作家定名的Apache Kafka用于构建及时数据流管道和流媒体应用措施。为什么这么受接待?由于它可以或许以容错的方法存储,打点和处理赏罚数据流,而且异常快速。鉴于交际收集情形处理赏罚数据流,Kafka今朝很是受接待。 ApacheMahout:Mahout提供了一个用于呆板进修和数据发掘的预制算法库,也是建设更多算法的情形。换句话说,是一个呆板进修的天国情形。 ApacheOozie:在任何编程情形中,必要一些事变流程体系来以预界说的方法和界说的依靠相关来布置和运行事变。Oozie提供的大数据事变以Apachepig,MapReduce和Hive等说话编写。 Apache Drill,Apache Impala,Apache Spark SQL:全部这些都提供了快速和交互式的SQL,如与Apachehadoop数据的交互。假如你已经知道SQL,并处理赏罚以大数据名目(即HBase或HDFS)存储的数据,这些成果将很是有效。 ApacheHive:知道SQL?然后回收Hive握手。Hive便于行使SQL读取,写入和打点驻留在漫衍式存储中的大型数据集。 ApachePig:Pig是在大型漫衍式数据集上建设查询执行例程的平台。所行使的剧本说话叫做PigLatin。听说Pig很轻易领略和进修。但题目是有几多人能从Pig学到什么? Apach eSqoop:用于将数据从Hadoop移动到非Hadoop数据存储(如数据客栈和相关数据库)的器材。 Apache Storm:一个免费的开源及时漫衍式计较体系。它使得行使Hadoop举办批处理赏罚的瞬时处理赏罚可以更轻易地处理赏罚非布局化数据。 人工智能(AI):人们也许会问,为什么在这里会有人工智能?人工智能不是一个单独的规模,全部这些趋势技能都是云云相干,人工智能开拓智能呆板和软件的方法,使得硬件和软件的这种组合可以或许感知情形,在必要时采纳须要的法子,并继承进修这些操纵。 举动说明:有没有想过谷歌如作甚人们必要的产物/处事提供告白?举动说明偏重于领略斲丧者和应用措施所做的工作,以及怎样故及为什么它们以某种方法起浸染。它是关于相识人们的网上冲浪模式,交际媒体互动,电子商务动作(购物车等),并毗连这些无关的数据点,并试图猜测功效。 Brontobytes:10的27次幂,这是数字宇宙的巨细。在这里,可以相识TB字节,PB字节,EB字节,ZB字节,YB字节,以及Brontobyte。人们此后会更多地相识这些术语。 贸易智能(BI):在这里引用调研机构Gartner对贸易智能的界说。贸易智能(BI)是一个总括的术语,个中包罗应用措施,基本办法和器材以及最佳实践,可以会见和说明信息,以改进和优化决定和绩效。 生物特性:这就是JamesBondish技能与说明技能相团结,通过一个或多个物理特性辨认人,如面部辨认,虹膜辨认,指纹辨认等。 点击流说明:用于说明用户在收集上赏识的在线点击。曾经想过为什么某些Google告白还会继承存眷你,纵然切换网站等?由于知道你在点击什么。 聚类说明:试图辨认数据中的布局的试探性说明。聚类说明也称为支解说明或分类说明。更详细地说,它试图确定统一组案例,即调查者,参加者,答复者。假如分组不是先前已知的,则行使聚类说明来辨认病例组。由于它是试探性的,它确定了依靠变量和独立变量之间的区别。SPSS提供的差异的聚类说明要领可以处理赏罚二进制,名义,次序和比例(隔断或比率)数据。 较量说明:大数据的焦点在说明中。顾名思义,较量说明是行使诸如模式说明,过滤和决定树说明之类的统计技能来较量多个历程,数据集或其他工具。人们知道它的技能性很差,但不能完全避开这个术语。较量说明可用于医疗保健,较量大量的医疗记录,文件,图像等更有用和更精确的医疗诊断。 毗连说明:你必然已经看到这些像蜘蛛网一样的收集图表毗连主题等,以辨认某些主题的影响者。毗连说明是有助于发明收集中职员,产物和体系之间的这些彼此关联的毗连和影响,乃至组合来自多个收集的数据的说明。 数据说明师:数据说明师是一个很是重要和受接待的事变地位,除了筹备陈诉之外,它还认真网络,哄骗和说明数据。 数据整理:这有点不言自明,它涉及从数据库中检测和更正或删除禁绝确的数据或记录。还记得“脏数据”吗?那么,行使人工和自动化器材和算法的组合,数据说明职员可以更正和富厚数据以进步其质量。记着,肮脏的数据会导致错误的说明和错误的决定。 DaaS:你有SaaS,PaaS和DaaS为代表的数据即处事吗?通过向客户提供按需会见云托管数据,DaaS提供商可以辅佐快速获取高质量的数据。 数据假造化:这是数据打点的一种要领,应承应用措施检索和操纵数据,而不必要其存储位置及其名目等的技能细节。譬喻,交际收集将人们的照片存储在他们的收集中。 脏数据:此刻,大数据变得很风行,人们开始在数据中添加形容词,发生新的术语,如暗数据、脏数据、小数据,此刻是智能数据。肮脏的数据就是不干净的数据,换句话说,是禁绝确、一再的,以及纷歧致的数据。显然,企业不但愿与脏数据关联。 恍惚逻辑:人们对100%这样的事物有几多掌握?很是有数。人类的大脑将数据聚合成部门真理,然后再抽象成某种阈值,来抉择我们的回响。恍惚逻辑是一种通过仿照部门真理来仿照人脑的运算,而不是像布尔代数的别的部门那样的“0”和“1”这样的绝对真理。恍惚逻辑在天然说话处理赏罚中获得了普及的应用,并已成长成为其他与数据相干的学科。 游戏化:在一个典范的游戏中,有人们喜好的得分要素,与他人竞争,某些游戏法则等元素。大数据中的游戏化是行使这些观念来网络数据或说明数据或凡是鼓励用户。 图形数据库:图形数据库行使的观念,如节点和界线代表职员/企业和他们的彼此相关,从交际媒体发掘数据。曾经想过,亚马逊怎样汇报你在购置产物时,别人买了什么?是的,图形数据库! Hadoop用户体验(Hue):Hue是一个开放源代码界面,使Apache Hadoop变得越发轻易。它是一个基于Web的应用措施,而且具有效于HDFS的文件赏识器,MapReduce的功课计划器,用于建造和谐器和事变流程的Oozie应用措施,Shell,Impala和HiveUI以及一组HadoopAPI。 HANA:高机能说明应用措施,来自SAP的软件/硬件内存中平台,专为大量数据买卖营业和说明而计划。 HBase:一个漫衍式,面向列的数据库。它行使HDFS作为其底层存储,并支持行使MapReduce和事宜交互的批量计较。 负载均衡:跨多台计较机或处事器漫衍事变负载,以实现体系的最佳功效和操作率。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |