大数据架构怎样做到流批一体?
Kappa+是 Uber 提出流式数据处理赏罚架构,它的焦点头脑是让流计较框架直读 HDFS类的数仓数据,一并实现及时计较和汗青数据 backfill 计较,不必要为 backfill 功课恒久生涯日记可能把数据拷贝回动静行列。Kappa+ 将数据使命分为无状态使命和时刻窗口使命,无状态使命较量简朴,按照吞吐速率公道并发扫描全量数据即可,时刻窗口使命的道理是将数仓数据凭证时刻粒度举办分区存储,窗口使命定时刻序一次计较一个 partition 的数据,partition 内哄序并发,全部分区文件所有读取完毕后,全部 source 才进入下个 partition 斲丧并更新 watermark。究竟上,Uber 开拓了Apache hudi 框架来存储数仓数据,hudi 支持更新、删除已有 parquet 数据,也支持增量斲丧数据更新部门,从而体系性办理了题目2存储的题目。下图3是完备的Uber 大数据处理赏罚平台,个中 Hadoop -> Spark -> Analytical data user 涵盖了Kappa+ 数据处理赏罚架构。
殽杂说明体系的 Kappa 架构 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |