布局化数据 vs. 非布局化数据
副问题[/!--empirenews.page--]
布局化数据 vs. 非布局化数据:布局化数据由明晰界说的数据范例构成,其模式可以使其易于搜刮。而非布局化数据凡是由不轻易搜刮的数据构成,个中包罗音频、视频和交际媒体宣布等名目。 布局化数据 vs. 非布局化数据非布局化数据与布局化数据并不暗示两者之间存在真正的斗嘴。客户不是基于他们的数据布局选择,而是在行使他们的应用措施中选择:相关数据库用于布局化数据,大大都其他范例的应用措施用于非布局化数据。 然而,布局化数据说明的难易水平与非布局化数据的说明难度之间的相关日益求助。布局化数据说明是一个成熟的流程和技能。非布局化数据说明是一个新兴行业,在研发方面需投入大量的资金,但这不是一项成熟的技能。企业内部的布局化数据与非布局化数据题目抉择了他们是否应该投资于非布局化数据的说明,以及将这二者团结是否成为一种更好的贸易智能? 什么是布局化数据? 布局化数据凡是驻留在相关数据库(RDBMS)中。其字段存储长度表现数据电话号码,社会安详号码或邮政编码。乃至像名称这样的可变长度的文本字符串也包括在记录中,这使得它很轻易搜刮。只要数据是在RDBMS布局内建设的,数据就可所以人工或呆板天生的。这种名目是搜刮与人类发生的查询和行使的数据和字段名称范例的算法,如字母或数字、钱币、日期。数据包括布局化数据的平凡相关数据库应用措施包罗航空预订体系、库存节制、贩卖事宜和ATM勾当。布局化查询说话(SQL)应承在相关数据库中查询这种范例的布局化数据。 一些相关数据库确实存储或指向非布局化数据,譬喻客户相关打点(CRM)应用措施。因为备忘录字段不会将本身放到传统的数据库查询中,因此其集成也许不抱负。尽量云云,大部门客户相关打点(CRM)数据都是布局化的。 什么长短布局化数据? 非布局化数据本质上是布局化数据之外的统统数据。非布局化数据具有内部布局,但不通过预界说的数据模子或模式举办布局化。它也许是文本的或非文本的,也也许是工钱的或呆板天生的。它也可以存储在像NoSQL这样的非相关数据库中。 典范的工钱非布局化数据包罗: 文本文件:笔墨处理赏罚、电子表格、演示文稿、电子邮件、日记。 电子邮件:因为其元数据,电子邮件具有一些内部布局,人们偶然将其称之为半布局化。可是,其动静字段长短布局化的,传统的说明器材无法理会它。 交际媒体:来自Facebook、Twitter和LinkedIn的数据。 网站:YouTube、Instagram、照片分享网站。 移动数据:短信、所在。 通讯:谈天、即时动静、电话灌音、协作软件。 媒体:MP3、数码照片、音频文件、视频文件。 营业应用措施:MS Office文档、出产力应用措施。 典范的呆板天生的非布局化数据包罗: 卫星图像:气候数据、地形、军事勾当。 科学数据:石油和自然气勘察、空间勘察、地动图像、大气数据。 数字监控:监控照片和视频。 传感器数据:交通、气候、海洋传感器。 最具海涵性的大数据说明可以行使布局化数据和非布局化数据。 布局化数据与非布局化数据:有什么区别? 除了存储在相关数据库和存储在一个相关数据库之外的明明区别之外,最大的区别在于说明布局化数据与非布局化数据的便利性。针对布局化数据存在成熟的说明器材,但用于发掘非布局化数据的说明器材正处于抽芽和成长阶段。 用户可以通过文本非布局化数据运行简朴的内容搜刮。可是,缺乏有序的内部布局使得传统数据发掘器材的方针失败,企业从富有代价的数据源(如媒体、收集、博客、客户交互,以及交际媒体数据)得到的代价很小。纵然非布局化数据说明器材在市场上呈现,但没有任何一个供给商或器材集是明晰的赢家。很多客户不肯意投资于具有不确定成长蹊径图的说明器材。 除此之外,非布局化数据比布局化数据要多得多。非布局化数据占企业数据的80%以上,而且以每年55%和65%的速率增添。假如没有器材来说明这些海量数据,组织会在贸易智能表上留下大量有代价的数据。 传统上,布局化数据对大数据应用措施来说更轻易消化,但现在的数据说明办理方案正在这方面取得重大盼望。 半布局化数据怎样合用于布局化和非布局化数据 半布局化数据维护用于辨认单独数据元素的内部标志和标签,从而实现信息分组和条理布局。文档和数据库都可所以半布局化的。这种范例的数据只代表布局化/半布局化/非布局化数据的5%-10%,但具有要害的营业用例。 电子邮件是半布局化数据范例的一个非经常见的例子。而更高级的说明器材对付线程跟踪,近似一再数据删除和观念搜刮是必须的。电子邮件的当地元数据可以实现分类和要害字搜刮,无需任何其他器材。 电子邮件是一个庞大的用例,但大大都半布局化的开拓中心都在缓解数据传输题目。与基于Web的数据共享和传输一样,共享传感器数据也是一个不绝增添的用例:电子数据互换(EDI),很多交际媒体平台,文档标志说话和NoSQL数据库。 半布局化数据的例子 标志说话XML这是一种半布局化的文档说话。XML是一组界说人机可读名目标文档编码法则(固然说XML是人类可读的,但并没有带来太大的甜头,由于职员阅读XML文档城市让他们越发淹灭时刻。)其代价在于它的标签驱动布局很是机动,编码职员可以使其顺应在Web上遍及数据布局、存储和传输。 开放尺度JSON(JavaScript Object Notation)是另一种半布局化数据互换名目。Java隐含在名称中,但其他相同C说话的编程说话可以辨认它。其布局由名称/值对(或工具、散列表等)和有序值列表(或数组、序列、列表)构成。因为布局在各类说话之间可以交流,JSON善于在Web应用措施和处事器之间传输数据。 NoSQL半布局化数据也是很多NoSQL(不只是SQL)数据库的重要构成部门。NoSQL数据库与相关数据库差异,由于它们不会将组织(模式)与数据分隔。这使得NoSQL成为存储不轻易顺应记录和表格名目标信息(好比长度差异的文本)的更好选择。它还应承数据库之间举办更轻易的数据互换。一些较新的NoSQL数据库(如MongoDB和Couchbase)也通过将它们以JSON名目当地存储来包括半布局化文档。 在大数据情形中,NoSQL不必要打点员将运营和说明数据库疏散为单独的陈设。NoSQL是可操纵的数据库,并托管用于贸易智能的当地说明器材。在Hadoop情形中,NoSQL数据库摄取并打点传入数据并提供说明功效。 这些数据库在大数据基本架构和LinkedIn等及时Web应用措施中很常见。在LinkedIn网站上,数以亿计的贸易用户可以自由分享地位、所在、手艺等等。LinkedIn以半布局化名目捕获海量数据。当求职用户建设搜刮时,LinkedIn会将查询与其大局限的半布局化数据存储相匹配,将数据交错引用到雇用趋势中,并与求职者分享功效保举。 Salesforce等高级LinkedIn处事中的贩卖和营销查询也回收沟通的流程。亚马逊还将读者保举成立在半布局化数据库上。 布局化数据与非布局化数据:下一代器材是游戏法则改变者 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |