加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

冲破数据同一的七大原则

发布时间:2018-04-07 20:31:23 所属栏目:大数据 来源:站长网
导读:数据同一在数据说明规模里是个恒久的挑衅,从事数据说明的从颐魅者但愿在数据说明之前,来自差异实体的数据可以或许在统一个处所泛起出来。数据同一由七部门构成:1、获取数据 2、洗濯数据 3、转换数据、4、模式集成 5、一再数据删除、6、分类 7、导出 一样平常而言

数据同一在数据说明规模里是个恒久的挑衅,从事数据说明的从颐魅者但愿在数据说明之前,来自差异实体的数据可以或许在统一个处所泛起出来。数据同一由七部门构成:1、获取数据 2、洗濯数据 3、转换数据、4、模式集成 5、一再数据删除、6、分类 7、导出

数据同一

一样平常而言,企业实现数同一有两种要领,提取转换加载(ETL)和主数据打点(MDM)。

提取转换加载(ETL)具有机动性的上风,得当差异的数据来历,使措施员可以手工编写转换措施,可以或许确保源数据模式与齐集式数据客栈项目回收的全局模式匹配。但因为自动化水平低,提取转换加载带宽能高出20个数据源没有几多家公司。

主数据打点(MDM),它与ETL相同的处地址于,预设一个“主记录”,每一个有专门的种别选项。如客户、部件和供给商等的全部文件切合主记录名目。但和ETL有所区此外是,MOM不是行使手动的定制剧本,而是依赖一套“恍惚归并”法则,把全部差异的文件转换成主名目。

可难明的是,在数据量过大的环境下,不管是ETL照旧MDM,都无法办理数据同一困难。加上大数据集的复杂局限以及对措施员的苛刻要求任何的可局限化数据同一项目都必需在很洪流平上实现自动化,不能依赖手动编写的措施。

闻名计较机科学家、Tamr连系首创人兼首席技能官迈克尔·斯通布雷克(Michael Stonebraker)针对数据同一存在的限定困难,提出数据同一的七条原则。

一、全部的可局限化体系,都必需自动举办绝大大都的操纵。 

二、模式为先(schema-first)的产物永久无礼貌模化。独一的选择是回收‘模式为后’(schema-last)的产物。

三、必要举办详细的域操纵时,只有协作性的体系才可实现局限化。

四、为了实现可局限化,任何的同一计较必需在多个焦点和多个处理赏罚器上运行。

五、尽量存在第四条原则,但真正的可扩展应用必要伟大性低于N ** 2的并行算法。

六、法则体系实现是无礼貌模化的。只有呆板进修体系才气将局限扩展到大公司所必要的水平。

七、必需支持及时增量同一。


【本文由中国IDC圈原创,转载需注明出处】

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读