加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

及时数据平台计划:办理从OLTP到OLAP及时流转缺失

发布时间:2018-08-17 00:37:52 所属栏目:教程 来源:卢山巍
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 本文将会分上下两篇对一个重要且常见的大数据基本办法平台睁开接头,即及时数据平台。在上篇计划篇中,我们起首从两个维度先容及时数据平台:从当代数仓架构角度对待及时数据平台,
副问题[/!--empirenews.page--] 技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战

本文将会分上下两篇对一个重要且常见的大数据基本办法平台睁开接头,即“及时数据平台”。在上篇计划篇中,我们起首从两个维度先容及时数据平台:从当代数仓架构角度对待及时数据平台,从典范数据处理赏罚角度对待及时数据处理赏罚;接着我们会切磋及时数据平台整体计划架构、对详细题目的考量以及办理思绪。在下篇技能篇中,我们会进一步给出及时数据平台的技能选型和相干组件先容,并切磋差异模式合用哪些应用场景。但愿通过对本文的接头,读者可以获得一个有章可循、可现实落地的及时数据平台构建方案。

一、相干观念配景

1从当代数仓架构角度看及时数据平台

当代数仓由传统数仓成长而来,比拟传统数仓,当代数仓既有与其沟通之处,也有诸多成长点。起首我们看一下传统数仓(图1)和当代数仓(图2)的模块架构:

及时数据平台计划:办理从OLTP到OLAP及时流转缺失

图1 传统数仓

及时数据平台计划:办理从OLTP到OLAP及时流转缺失

图2 当代数仓

传统数仓各人都很认识,这里不做过多先容,一样平常来说,传统数仓只能支持T+1天时效耽误的数据处理赏罚,数据处理赏罚进程以ETL为主,最终产出以报表为主。

当代数仓成立在传统数仓之上,同时增进了更多样化数据源的导入存储,更多样化数据处理赏罚方法和时效(支持T+0天时效),更多样化数据行使方法和更多样化数据终端处事。

当代数仓是个很大的话题,在此我们以观念模块的方法来揭示其新的特机手段。

起首我们先看一下图3中Melissa Coates的清算总结:

及时数据平台计划:办理从OLTP到OLAP及时流转缺失

图3

在图3 Melissa Coates的总结中我们可以得出,当代数仓之以是“当代”,是由于它有多平台架构、数据假造化、数据的近及时说明、火速交付方法等等一系列特征。

在小心Melissa Coates关于当代数仓总结的基本上,加以本身的领略,我们也在此总结提取了当代数仓的几个重要手段,别离是:

  • 数据及时化(及时同步和流式处理赏罚手段)
  • 数据假造化(假造混算和同一处事手段)
  • 数据布衣化(可视化和自助设置手段)
  • 数据协作化(多租户和分工协作手段)

(1)数据及时化(及时同步和流式处理赏罚手段)

数据及时化,是指数据从发生(更新至营业数据库或日记)到最终斲丧(数据报表、仪表板、说明、发掘、数据应用等),支持毫秒级/秒级/分钟级耽误(严酷来说,秒级/分钟级属于准及时,这里同一称为及时)。这里涉及到怎样将数据及时的从数据源中抽取出来;怎样及时流转;为了进步时效性,低落端到端耽误,还必要有手段支持在流转进程中举办计较处理赏罚;怎样及时落库;怎样及时提供后续斲丧行使。及时同步是指多源到多方针的端到端同步,流式处理赏罚指在流长举办逻辑转换处理赏罚。

可是我们要知道,不是全部数据处理赏罚计较都可以在流长举办,而我们的目标,是尽也许的低落端到端数据耽误,这里就必要和其他数据流转处理赏罚方法共同举办,后头我们会进一步接头。

(2)数据假造化(假造混算和同一处事手段)

数据假造化,是指对付用户或用户措施而言,面临的是同一的交互方法和查询说话,而无需存眷数据现实地址的物理库和方言及交互方法(异构体系/异构查询说话)的一种技能。用户的行使体验是面临一个单一数据库举办操纵,但其拭魅这是一个假造化的数据库,数据自己并不存放于假造数据库中。

假造混算指的是假造化技能可以支持异构体系数据透明混算的手段,同一处事指对付用户提供同一的处事接口和方法。

及时数据平台计划:办理从OLTP到OLAP及时流转缺失

图4 数据假造化

注:图1-4均选自“Designing a Modern Data Warehouse + Data Lake” - Melissa Coates, Solution Architect, BlueGranite

(3)数据布衣化(可视化和自助设置手段)

平凡用户(无专业大数据技能配景的数据从业职员),可以通过可视化的用户界面,自助的通过设置和SQL方法行使数据完本钱身的事变和需求,并无需存眷底层技能层面题目(通过计较资源云化,数据假造化等技能)。以上是我们对数据布衣化的解读。

对付Data Democratization的解读,还可以拜见以下链接:

https://www.forbes.com/sites/bernardmarr/2017/07/24/what-is-data-democratization-a-super-simple-explanation-and-the-key-pros-and-cons

文中提到技能层面怎样支持数据布衣化,并给出了几个例子:

  • Data virtualization software;
  • Data federation software;
  • Cloud storage;
  • Self-service BI applications等。

个中数据假造化和数据联邦本质上是相同技能方案,而且提到了自助BI这个观念。

(4)数据协作化(多租户和分工协作手段)

技强职员应该多相识营业,照旧营业职员应该多相识技能?这一向是企业内争论不休的题目。而我们信托当代BI是一个可以深度协作的进程,技强职员和营业职员可以在统一个平台上,施展各自所长,分工协作完成一般BI勾当。这就对平台的多租户手段和分工协作手段提出了较高要求,一个好的当代数据平台是可以支持更好的数据协作化手段的。

我们但愿可以计划出一个当代及时数据平台,满意以上提到的及时化、假造化、布衣化、协作化等手段,成为当代数仓的一个很是重要且必不行少的构成部门。

2从典范数据处理赏罚角度看及时数据处理赏罚

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读