基于某生鲜APP业务的数据仓库搭建过程(一)
大客户说明:
购物车说明:
售后说明:
供给链说明:
微仓说明:
2.3 抽取民众维度,构建数据集市 确定细分的说明主题后,必要对上述全部的主题举办切片,抽取民众维度。民众维度的抽取很是重要,假如没有维度的切片,那么全部说明数据只能从营业源数据中抽取,这样会极大低落数据的处理赏罚速率,乃至会导致计较体系的瓦解。这一步也为接下来的数据建模提供基本。 以用户说明为例,与用户有关的维度有下单时刻、下单日期、地址地域、购置的产物、用户订单、付出方法、折扣方法、年数、购置频率、售后等等。 以此类推,逐个说明每一个主题,然后抽取民众维度,构建总线矩阵表,如下所示: 2.4 按照常用建模要领,计划维度表和究竟表 一样平常来说,数据客栈由维度表和究竟表2种表构成,生涯怀抱值的具体值或究竟的表称为“究竟表”;用来描写事物维度和属性的表称为维度表。一样平常来说,一个究竟数据表都要和一个或多个维度表相干联。 在这一步调中,我们必要把OLTP模子中的数据转化为相关模子。建模要领常用的有星形模子、雪花模子。 以下订单究竟表为例,基于星型模子将OLTP中的数据转化为相关模子,界说条理布局,在这一步根基完成物理数据库的计划。 如下图所示: 3. 设置数据源OLTP中的数据范例很是多,来历大概多。既有布局化数据,也有半布局化、非布局化数据;既有mysql、oracle等相关型数据数据,也有日记文件、ngix处事器、埋点数据,乃至尚有DOC文件数据。 在这一步就必要梳理全部数据来历,包罗来历总数、数据范例、存储方法、数据量级、更新频度、增量量级等等。 其它必要留意到,布局化数据可以直接通过ETL方法举办提取;布局化和半布局化数据则必要通过必然的算法处理赏罚后再入库。 未完待续……
本文素材来自互联网 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |