加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

数据工程要从全局性数据架构思量

发布时间:2019-08-27 01:40:26 所属栏目:教程 来源:DIST上海数慧
导读:说到数据工程,给人的感受每每是空间数据的收罗、核查、规整、入库等进程。这些进程,间隔主流IT所说的数据工程照旧有些差此外。 主流IT对数据工程的界说是:以工程化作为根基起点的数据处理赏罚、说明和应用要领与技能,是计较机科学与技能学科的重要内容、

说到数据工程,给人的感受每每是空间数据的收罗、核查、规整、入库等进程。这些进程,间隔主流IT所说的“数据工程”照旧有些差此外。

主流IT对“数据工程”的界说是:“以工程化作为根基起点的数据处理赏罚、说明和应用要领与技能,是计较机科学与技能学科的重要内容、焦点与趋势”。

在这个界说中,出格夸大了“工程”两个字。“工程”是以办理题目、实当代价为导向的,每每受限于详细营业场景,凡是必要综合衡量思量,并具有实践性较强的、必要与用户重复交互的“处事”方法,而不是以市场为导向的“产物”模式。

数据工程要从全局性数据架构思量

一、需不必要全局性数据架构?

许多人会说,“我们只是做数据处理赏罚、数据迁徙等,不必要数据架构”、“我们只是做数据说明揭示,其他工作不必要思量那么多”……

假如站在项目实验的某个局部角度,只需思量某项数据处理赏罚事变的局部范畴和详细要求的话,确实可以这么说。可是,假如站在项目全局的角度,或项目局限较大,就不得不从全局视角统筹思量数据工程了。不然,就会呈现各类百般的题目。好比,发生“数据孤岛”、数据之间无法关联、数据统计功效是否真实可信等题目。

二、在什么阶段思量全局性数据架构?

尚有一种概念较量常见:“我们只是做营业体系,暂且不思量说明类应用,在往后搭建商务智能(BI)、数据客栈应用时,我们再来思量数据架构”。

假如只有少数几个营业体系,是否有独立的数据架构,影响也许不大。可是,假如营业体系累积到五个以上时,这种“重体系轻数据”、“重流程轻说明”的导向,会带来许多题目。没有同一的数据架构和数据管理机制,多个体系之间会呈现数据尺度不同一,数据内容纷歧致,数据同名差异义和同义差异名等征象,数据质量无法担保,数据集成很是坚苦,肯定影响营业应用体系效能的正常施展。假如营业体系自己数据质量就有题目,纵然数据抽取处理赏罚、数据说明揭示体系做得再好,也是徒然。以是,对付大型的、伟大的营业应用体系,必需思量全局的数据架构;至于数据说明型应用,没稀有据架构和数据管理机制,将寸步难行。

三、全局性数据架构怎么做?

做全局性数据架构,就是要答复用户的题目:用户的数据资产应该怎样组织,才气管得住、用得好?针对这个题目,可以从数据资源目次、数据尺度、数据模子、数据漫衍等多个维度加以思量。在详细落地时,还要思量元数据打点、数据集成、数据共享等要素。下图是我们在某个详细项目中的全局性数据架构计划思量。

数据工程要从全局性数据架构思量
某项目标全局数据架构逻辑图

从全局整体角度,把数据凭证应用偏向,分别几个库:

1、营业库

在“营业应用域”,首要面向的是“营业治理职员”。从数据角度,一个库里有多个数据域,与其相对的,一个平台多个应用,即一个营业平台上面承载多个营业应用,整个“营业应用域”就是一个系同一个库,从基础上办理早年十几个体系十几个库而导致的“烟囱体系”的题目。其它,这个营业库的数据组织情势,是以“治理事项”举办数据建模组织的,数据操纵首要是数据增、删、改、查,属于典范的事宜性数据库(OLTP)。

2、说明库

在“数据说明域”中,首要面向的是“说明决定职员”。因此,必要成立数据客栈。数据客栈按照差异应用场景分层,包罗:操纵性数仓(ODS)、焦点数仓(DW)、数据集市(DM)等,同样与之相对,搭建响应的“数据应用平台”和一系列的数据应用。说明库凭证“说明主题”组织数据。所谓“说明主题”,就是针对某种营业工具可能某个事项的说明需求,好比建树项目环境说明、房源筹集和分派环境说明等。

3、管理库

顾名思义,“数据管理域”首要面向“数据管理职员”。通过数据管理,打点好全局的全部数据。个中,“主数据”是凭证“焦点营业工具”组织的数据,它提供可共享的焦点数据底板,具有同一、完备、精确、实时的特点。好比,在民众住房规模,房源就是一种主数据。“元数据”则用来对数据举办描写的数据,包罗数据的范例、相关、活动、变革(血缘)和营业寄义等。“参考数据”是指一些重要的数据字典,好比,在民众住房规模,租赁状态、出册缘故起因、交租方法、衡宇状态等,都必要回收字典来描写。

4、其他库

除以上焦点库外,尚有一些其他数据。包罗:用于表里数据互换的互换数据,用于空间定位和空间说明的空间数据,以及各类文档原料、电子档案等非布局化数据等。

全局性数据逻辑架构的最大代价在于:从全局上搞清晰有哪些数据?数据和体系之间、差异范例的数据之间,存在什么相关?各类差异数据是怎么存储打点的?除此之外,数据架构还包罗:数据模子,它从静态视角,描写数据之间的详细相关,指导后续数据库的逻辑计划、物理计划;数据漫衍,它从动态视角,描写数据在营业应用体系上的漫衍、数据活动的全景视图等。因为篇幅所限,在此纷歧一罗列。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读