加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

措施员条记|3个题目带你入门数据建模

发布时间:2019-05-16 04:03:54 所属栏目:教程 来源:hanfeng
导读:一、作甚建模 数据险些老是用于两种目标:操纵型记录的生涯和说明型决定的拟定。简朴来说,操纵型体系生涯数据,分型型体系行使数据。 前者一样平常仅反应数据的最新状态,按单笔记录事宜性来处理赏罚;其优化的焦点是更快地处理赏罚事宜。 后者每每是反应数据一段时刻
副问题[/!--empirenews.page--]

一、作甚建模

数据险些老是用于两种目标:操纵型记录的生涯和说明型决定的拟定。简朴来说,操纵型体系生涯数据,分型型体系行使数据。

  • 前者一样平常仅反应数据的最新状态,按单笔记录事宜性来处理赏罚;其优化的焦点是更快地处理赏罚事宜。
  • 后者每每是反应数据一段时刻的状态变革,按大批量方法处理赏罚数据;其焦点是高机能、多维度处理赏罚数据。

凡是我们将操纵型体系简称为OLTP(On-Line Transaction Processing)— 联机事宜处理赏罚,将说明型体系简称为OLAP(On-Line Analytical Processing)— 联机说明处理赏罚。

针对这两种差异的数据用途,怎样组织数据,更好地满意数据行使需求。这里就涉及到数据建模题目。即计一律种数据组织方法(模子),来满意差异场景。在OLTP场景中,常用的是行使实体相关模子(ER)来存储,从而在事宜处理赏罚中办理数据的冗余和同等性题目。在OLAP场景中,有多种建模方法有:ER模子、星型模子和多维模子。下面别离声名下:

1. ER模子

OLAP中的ER模子,与OLTP中的有所区别。其本质差别是站在企业角度面向主题的抽象,而不是针对某个详细营业流程的实体工具相关的抽象。

2. 星型模子

星型模子,是维度模子在相关型数据库上的一种实现。该模子暗示每个营业进程包括究竟表,究竟表存储变乱的数值化怀抱,环绕究竟表的多个维度表,维度表包括变乱产生时现实存在的文本情形。这种相同于星状的布局凡是称为"星型毗连"。其重点存眷用户怎样更快速地完成需求说明,同时具有较好的大局限伟大查询的相应机能。在星型模子基本上,在伟大场景下还可以进一步衍生出雪花模子。

3. 多维模子

多维模子,是维度模子的另一种实现。当数据被加载到OLAP多维数据库时,对这些数据的存储的索引,回收了为维度数据涉及的名目和技能。机能聚积或估量算汇总表凡是由多维数据库引擎成立并打点。因为回收估量算、索引计策和其他优化要领,多维数据库可实现高机能查询。

在这三种方法中,星型模子行使较多,下面也着重对这种方法举办声名。

二、维度建模

1. 根基观念

在建模进程中,涉及到许多观念。下面通过一个场景来,来声名它们。譬喻:常见的电商下单环节,每个用户提交一笔订单(仅限一个物品),就对应于一条订单记录。

  • 【营业进程】:下订单
  • 【粒度】:每笔订单(拆分为单个物品)
  • 【维度】:区域、年数、渠道等(可供说明的角度)
  • 【究竟/怀抱】:订单金额等(可用于说明的数据)

2. 建模步调

(1) 网络营业需求与数据实现

在开始维度建模事变之前,必要领略营业需求,以及作为底层源数据的现实环境。通过与营业方雷同交换、查察现有报表等来发明需求,用于领略他们的基于要害机能指标、竞争性贸易题目、决定拟定进程、支持说明需求的方针。同时,数据现实环境可通过与数据库体系专家交换,相识会见数据可行性等。

(2) 选择营业进程

营业进程是组织完成的操纵型勾当。营业进程时刻成立或获取机能怀抱,并转换为究竟表中的究竟。大都究竟表存眷某一营业进程的功效。进程的选择很是重要的,由于进程界说了特定的计划方针以及对粒度、维度、究竟的界说。

(3) 声明粒度

声明粒度是维度计划的重要步调。粒度用于确定某一究竟表中的行暗示什么。在选择维度或究竟前必需声明粒度,由于每个候选维度或究竟必需与界说的粒度保持同等。在从给定的营业进程获取数据时,原子粒度是最初级此外粒度。凶猛提议从存眷原子级别粒度数据开始计划,由于原子粒度数据可以或许遭受无法预期的用户查询。

(4) 确认维度(描写情形)

维度提供环绕某一营业进程变乱所涉及的"谁、什么、那里、何时、为什么、怎样"等配景。维度表包括说明应用所必要的用于过滤及分类究竟的描写性属性。紧紧把握究竟表的粒度,就可以或许将全部也许存在的维度区分隔来。

(5) 确认究竟(用于怀抱)

究竟,涉及来自营业进程变乱的怀抱,根基上都是以数据值暗示。一个究竟表行与凭证究竟表粒度描写的怀抱变乱之间存在一对一相关,因此究竟表对应一个物理可调查的变乱。在究竟表内,全部究竟只应承与声明的粒度保持同等。

(6) 陈设方法 - 星型模子或多维模子

选择一种维度模子的落处所式。既可以选择星型模子,陈设在相关数据库上,通过究竟表及通过主外键关联的维度表;也可以选择多维模子,落地于多维数据库中。

3. 建模类型

以维度建模为理论基本,界说一系列术语来描写建模工具。下图摘自于《阿里巴巴大数据实践之路》。

措施员条记|3个题目带你入门数据建模

(1) 数据域

指面向营业说明,将营业进程可能维度举办抽象的荟萃。在分别数据域时,既能涵盖当前全部的营业需求,又能在新营业进入时无影响地被包括进已有的数据域中和扩展新的数据域。

(2) 营业进程

指企业的营业勾当变乱,如下单、付出、退款都是营业进程。请留意,营业进程是一个不行拆分的举动变乱,普通地讲,营业进程就是企业勾当中的变乱。

(3) 时刻周期

用来明晰数据统计的时刻范畴可能时刻点,如最近30天、天然周、制止当日等。

(4) 修饰范例

是对修饰词的一种抽象分别,是从属于某个营业域的。

(5) 修饰词

指除了统计维度以外指标的营业场景限制抽象。修饰词附属于一种修饰范例。

(6) 怀抱/原子指标

原子指标和怀抱寄义沟通,基于某一营业变乱举动下的怀抱,是营业界说中不行再拆分的指标,具有明晰营业寄义的名词,如付出金额。

(7) 维度

维度是怀抱的情形,用来反应营业的一类属性,这类属性的荟萃组成一个维度,也可以称为实体工具。维度属于一个数据域,如地理维度(个中包挤国度、地域、省以及都市品级此外内容)、时刻维度(个中包罗年、季、月、周、日品级此外内容)。

(8) 维度属性

维度属性附属于一个维度,如地理维度内里的国度名称、国度ID、省份名称等都属于维度属性。

(9) 派生指标

派生指标=一个原子指标+多个修饰词(可选)+时刻周期。可以领略为对原子指标营业统计范畴的圈定。

三、计划要点

1. 维度表计划

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读