加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据架构怎样做到流批一体?

发布时间:2019-07-02 01:02:40 所属栏目:教程 来源:技术小能手
导读:阿里妹导读:大数据与现有的科技本领团结,对大大都财富而言都能发生庞大的经济及社会代价。这也是当下很多企业,在大数据上深耕的缘故起因。大数据说明场景必要办理哪些技能挑衅?今朝,有哪些主流大数据架构模式及其成长?本日,我们城市逐一解读,并先容怎样

Kappa+是 Uber 提出流式数据处理赏罚架构,它的焦点头脑是让流计较框架直读 HDFS类的数仓数据,一并实现及时计较和汗青数据 backfill 计较,不必要为 backfill 功课恒久生涯日记可能把数据拷贝回动静行列。Kappa+ 将数据使命分为无状态使命和时刻窗口使命,无状态使命较量简朴,按照吞吐速率公道并发扫描全量数据即可,时刻窗口使命的道理是将数仓数据凭证时刻粒度举办分区存储,窗口使命定时刻序一次计较一个 partition 的数据,partition 内哄序并发,全部分区文件所有读取完毕后,全部 source 才进入下个 partition 斲丧并更新 watermark。究竟上,Uber 开拓了Apache hudi 框架来存储数仓数据,hudi 支持更新、删除已有 parquet 数据,也支持增量斲丧数据更新部门,从而体系性办理了题目2存储的题目。下图3是完备的Uber 大数据处理赏罚平台,个中 Hadoop -> Spark -> Analytical data user 涵盖了Kappa+ 数据处理赏罚架构。

大数据架构怎样做到流批一体?

图3 Uber环绕Hadoop dataset的大数据架构

殽杂说明体系的 Kappa 架构

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读