人们应该知道的大数据术语
元数据:元数据是描写其他数据的数据。元数据总结了有关数据的根基信息,可以使查找和处理赏罚特定命据实例更轻易。譬喻,作者,建设日期和日期修改以及文件巨细长短常根基的文档元数据。除文档文件外,元数据也用于图像,视频,电子表格和网页。 Mongo DB:一个跨平台的开源数据库,它行使面向文档的数据模子,而不是传统的基于相关数据库的表布局。这种范例的数据库布局旨在使布局化和非布局化数据在某些范例的应用措施中越发轻易和快速地集成。 Mashup:荣幸的是,这个术语对付我们在一般糊口中相识mashup的界说相同。根基上,Mashup是将差异数据集归并为单个应用措施的一种要领(示例:将房地产清单与生齿统计数据或地理数据相团结)。这是一个很是好的可视化。 多维数据库:针对数据在线说明处理赏罚(OLAP)应用措施和数据客栈举办优化的数据库。它只不外是数据多个数据源的中央存储库。 多值数据库:它们是一种直接相识三维数据的NoSQL和多维数据库。它们直接用于直接操纵HTML和XML字符串。 天然说话处理赏罚:为使计较机更准确地领略日凡人类说话而计划的软件算法,使人们可以或许更天然、更有用地与之交互。 神经收集:神经收集是一个瑰丽的生物学开导的编程典型,使计较性可以或许从视察数据中进修。有人称编程典型很美,本质上,人工神经收集是由实际糊口中大脑的生物学开导的模子。与这种神经收集亲近相干的是深度进修。深入进修则是一套成果强盛的神经收集进修技能。 模式辨认:当一个算法在大数据集或差异的数据齐集定位递归或纪律时,就会呈现模式辨认。它细密相连,乃至被以为是呆板进修和数据发掘的代名词。这种可见性可以辅佐研究职员发明看法或得出结论,不然会被袒护。 RFID-射频辨认:一种行使无线非打仗式射频电磁场传输数据的传感器。跟着物联网革命,RFID标签可以嵌入到每一个也许的“对象”中,以发生必要说明的庞大数据量。 SaaS:软件即处事,使供给商可以或许托管应用措施并通过互联网使其可用。SaaS提供商通过云计较提供处事。 半布局化数据:半布局化数据是指以通例方法未被捕捉或名目化的数据,譬喻与传统数据库字段或民众数据模子相干联的数据。它也不是原始的或完全非布局化的,而且也许包括一些数据表,标签或其他布局元素。图形和表格,XML文档和电子邮件是半布局化数据的示例,它在万维网上长短常广泛的,凡是在面向工具的数据库中。 情感说明:情感说明涉及捕获和跟踪斲丧者在各类交互或文件(包罗交际媒体,客户处事代表呼唤,观测等)中表达的意见,情感或感觉。文天职析和天然说话处理赏罚是情感说明进程中的典范勾当。方针是确定或评估对公司,产物,处事,职员或变乱表达的情感或立场。 空间说明:指说明地理数据或拓扑数据的空间数据,以辨认和领略漫衍在地理空间中的数据内的模式和纪律。 流处理赏罚:流处理赏罚旨在通过“持续”查询对及时和流数据举办操纵。跟着从交际收集不绝流出的数据,流处理赏罚和流说明简直必要在这些流中不中断地计较数学或统计说明,以便及时处理赏罚大量的数据。 智能数据:智能数据据称是在通过算法举办的一些过滤之后,其数据是有效的和可操纵的。 TB字节:一个相对较大的数字数据单位,一T字节(TB)便是1000GB字节。据预计,10T字节可以容纳美国国会图书馆的所有印刷品,而1T字节可以容纳1000份百科全书。 可视化:通过正确的可视化,原始数据可以投入行使。虽然可视化并不料味着平凡的图形或饼图。它们是指可以包括许大都据变量的伟大图形,同时如故可以领略和可读 Yabyabytes:约1000ZB,或2500亿张的DVD容量。现在的整个数字宇宙是1 Yabyabytes,这将每18个月翻一番。 Zettabytes:约莫1000EB字节或10亿TB字节。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |