通过数据假造化 优化数据
(备注:MPP (Massively Parallel Processing),意为大局限并行处理赏罚体系,这样的体系是由很多松耦合处理赏罚单位构成的,要留意的是这里指的是处理赏罚单位而不是处理赏罚器。每个单位内的CPU都有本身私有的资源,如总线、内存、硬盘等。在每个单位内都有操纵体系和打点数据库的实例复本。这种布局最大的特点在于不共享资源。) 2. 认真数据共享 文化和法令障碍每每阻碍数据共享,这已成为大数据说明的首要构成部门。 数据隐私礼貌是令人佩服的组织在新项目标每个计划和实验阶段纳入或以其他方法声名数据隐私的充实思量。 数据假造化回收的中央方法,低落了遵守越来越多的勾当数据隐私礼貌的本钱,并应承通过计划包括数据隐私。 数据假造化的焦点成果是使漫衍式数据保持在源代码中,同时通过一个逻辑层将其袒露给斲丧者。这种要领消除了对持续数据复制的必要。较少的复制可以镌汰组织中小我私人和敏感数据的副本,镌汰数据安详和管理方面的题目。 数据假造化还使组织可以或许很轻易地在整个组织中建设聚合的、同等的数据视图,譬喻风险数据。这些视图可以有选择地共享,同时完全遵守组织的数据会见和隐私计策。如图1 所示 数据假造化能降服以下首要信息共享方面的挑衅: 差异的数据源。行使数据假造化,可以轻松地将数据集成到各类内部和外部体系中。 差异的数据名目。数据假造化可以行使差异的技能和协议毗连到差异名目标数据。这些伟大性被用户和应用措施所潜匿。 差异的数据尺度。行使查询表或内存映射,数据假造化可以集成数据,纵然它来自差异的尺度。 数据不完备。数据假造化应承将数据汇总在差异的体系中,以实现整体的视图。 未处理赏罚数据。对聚合数据举办的数据计较(与部门,孤独数据相反)可以提供整个企业组织完备的风险视图。 敏感数据。数据假造化可以提供安详性和隐私成果,以便用户只能看到他们被应承看到的数据。 3. 通用语义模子 企业用户的情势及局限各不沟通。因此,必需相识客户是谁?(譬喻,他们是数据说明师,高级用户,高管照旧呆板)。以及他们必要的数据(譬喻,预先聚合的,预先计较,特定准确,特定浸染的照旧特定规模的)是必须的。对付特定的呆板而言,正确的标志数据集对付有用的呆板进修至关重要。在为说明提供数据时行使企业用户相识的说话也是很重要的。行使营业用户在提供数据举办说明时相识的说话也很重要。 譬喻,帐户合用于财政中的用户,而客户是客户眷注中的用户的首选术语。 支持多种语义是停止强制用户改变术语的要害。 由数据假造化驱动的通用语义模式可觉得整个组织提供常见且同一的数据视图。通过不被嵌入到单一的贸易智能(BI)器材中,语义模子对付多个BI器材是通用的,而且可以会见险些任何数据源。 数据假造化实现自助说明方面,完成下列方针: 可以或许快速利便地构建机动的语义模式 提供具有掩护法子的自助处事平台 既支持“data cowboys”(在必然范畴内)也支持通例营业用户 加速自我处事设施(消除说明孤岛),同时保持节制和管理 提供完备的、可信的、高质量的信息对决定拟定以及猜测性和类型性说明都是至关重要的。数据假造化是满意这一需求的抱负技能,这些组织力求将数据用作计谋资产。虽然,要沿着“数据-假造化”蹊径走多远,将取决于用户营业需求和大数据情形的伟大性。另外,还取决于用户对风险、伟大性和坚苦的遭受水平。在将来,跟着说明模子、法则和大数据云上汇聚的信息日益伟大,平台将成为假造化会见、执行和打点的焦点。在这一新规模内,MapReduce将成为要害的(但并不是独一的)开拓框架。另外,MapReduce还将成为针对内联说明和买卖营业计较的假造化架构的一部门。不外,今朝这一假造化架构固然涵盖范畴更广,可是大部门仍没有被明晰界说。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |