加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

对比Flink与Storm性能,分布式实时计算框架该这样选

发布时间:2019-06-27 23:30:49 所属栏目:建站 来源:梦瑶
导读:一、配景 Apache Flink 和 Apache Storm 是当前业界普及行使的两个漫衍式及时计较框架。个中 Apache Storm(以下简称Storm)在美团点评及时计较营业中已有较为成熟的运用,有打点平台、常用 API 和响应的文档,大量及时功课基于 Storm 构建。 Apache Storm参

⑥ Windowed Word Count Flink At Least Once 与 Exactly Once 吞吐量比拟

比拟Flink与Storm机能,漫衍式及时计较框架该这样选

Windowed Word Count Flink At Least Once 与 Exactly Once 吞吐量比拟

因为统一算子的多个并利用命处理赏罚速率也许差异,在上游算子中差异快照里的内容,颠末中间并行算子的处理赏罚,达到下流算子时也许被计入统一个快照中。这样一来,这部门数据会被一再处理赏罚。因此,Flink 在 Exactly Once 语义下必要举办对齐,即当前最早的快照中全部数据处理赏罚完之前,属于下一个快照的数据不举办处理赏罚,而是在缓存区守候。当前测试用例中,在 JSON Parser 和 CountWindow、CountWindow 和 Output 之间均必要举办对齐,有必然耗损。为浮现出对齐场景,Source/Output/Sink 并发度的并发度仍为 1,进步了 JSONParser/CountWindow 的并发度。详细流程细节拜见前文 Windowed Word Count 流程图。

上图中橙色柱形为 At Least Once 的吞吐量,黄色柱形为 Exactly Once 的吞吐量。比拟两者可以看出,在当前并发前提下,Exactly Once 的吞吐较 At Least Once 而言降落了 6.3%。

⑦ Windowed Word Count Storm At Least Once 与 At Most Once 吞吐量比拟

比拟Flink与Storm机能,漫衍式及时计较框架该这样选

Windowed Word Count Storm At Least Once 与 At Most Once 吞吐量比拟

Storm 将 ACKer 数目配置为零后,每条动静在发送时就自动 ACK,不再守候 Bolt 的 ACK,也不再重动员静,为 At Most Once 语义。

上图中蓝色柱形为 At Least Once 的吞吐量,浅蓝色柱形为 At Most Once 的吞吐量。比拟两者可以看出,在当前并发前提下,At Most Once 语义下的吞吐较 At Least Once 而言进步了 16.8%。

⑧ Windowed Word Count 单线程功课耽误

比拟Flink与Storm机能,漫衍式及时计较框架该这样选

Windowed Word Count 单线程功课耽误

Identity 和 Sleep 视察的都是 outTime - eventTime,由于功课处理赏罚时刻较短或 Thread.sleep 精度不高,outTime - inTime 为零或没有较量意义;Windowed Word Count 中可以有用测得 outTime - inTime 的数值,将其与 outTime - eventTime 画在统一张图上,个中 outTime - eventTime 为虚线,outTime - InTime 为实线。

调查橙色的两条折线可以发明,Flink 用两种方法统计的耽误都维持在教逑堤度;调查两条蓝色的曲线可以发明,Storm 的 outTime - inTime 较低,outTime - eventTime 一向较高,即 inTime 和 eventTime 之间的差值一向较大,也许与 Storm 和 Flink 的数据读入方法有关。

蓝色折线表白 Storm 的耽误随数据量的增大而增大,而橙色折线表白 Flink 的耽误跟着数据量的增大而减小(此处未测至 Flink 吞吐量,靠近吞吐时 Flink 耽误依然会上升)。

纵然仅存眷 outTime - inTime(即图中实线部门),依然可以发明,当 QPS 逐渐增大的时辰,Flink 在耽误上的上风开始浮现出来。

⑨ Windowed Word Count Flink At Least Once 与 Exactly Once 耽误比拟

比拟Flink与Storm机能,漫衍式及时计较框架该这样选

Windowed Word Count Flink At Least Once 与 Exactly Once 耽误比拟

图中黄色为 99 线,橙色为中位数,虚线为 At Least Once,实线为 Exactly Once。图中响应颜色的虚实曲线都根基重合,可以看出 Flink Exactly Once 的耽误中位数曲线与 At Least Once 根基贴合,在耽误上机能没有太大差别。

⑩ Windowed Word Count Storm At Least Once 与 At Most Once 耽误比拟

比拟Flink与Storm机能,漫衍式及时计较框架该这样选

Windowed Word Count Storm At Least Once 与 At Most Once 耽误比拟

图中蓝色为 99 线,浅蓝色为中位数,虚线为 At Least Once,实线为 At Most Once。QPS 在 4000 及早年的时辰,虚线实线根基重合;QPS 在 6000 时两者已有差别,虚线略高;QPS 靠近 8000 时,已高出 At Least Once 语义下 Storm 的吞吐,因此只有实线上的点。

可以看出,QPS 较低时 Storm At Most Once 与 At Least Once 的耽误调查不到差别,跟着 QPS 增大差别开始增大,At Most Once 的耽误较低。

⑪Windowed Word Count Flink 差异 StateBackends 吞吐量比拟

比拟Flink与Storm机能,漫衍式及时计较框架该这样选

Windowed Word Count Flink 差异 StateBackends 吞吐量比拟

Flink 支持 Standalone 和 on Yarn 的集群陈设模式,同时支持 Memory、FileSystem、RocksDB 三种状态存储后端(StateBackends)。因为线上功课必要,测试了这三种 StateBackends 在两种集群陈设模式上的机能差别。个中,Standalone 时的存储路径为 JobManager 上的一个文件目次,on Yarn 时存储路径为 HDFS 上一个文件目次。

比拟三组柱形可以发明,行使 FileSystem 和 Memory 的吞吐差别不大,行使 RocksDB 的吞吐仅别的两者的异常之一阁下。

比拟两种颜色可以发明,Standalone 和 on Yarn 的总体差别不大,行使 FileSystem 和 Memory 时 on Yarn 模式下吞吐稍高,行使 RocksDB 时 Standalone 模式下的吞吐稍高。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读