加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

102万行代码,1270个问题,Flink新版发布了什么?

发布时间:2020-03-07 13:46:31 所属栏目:移动互联 来源:站长网
导读:副问题#e# 阿里妹导读:Apache Flink 是公认的新一代开源大数据计较引擎,可以支持流处理赏罚、批处理赏罚和呆板进修等多种计较形态,也是Apache 软件基金会和 GitHub 社区最为活泼的项目之一。 2019 年 1 月,阿里巴巴及时计较团队公布将颠末双十一历练和团体内部
副问题[/!--empirenews.page--]

102万行代码,1270个题目,Flink新版宣布了什么?

阿里妹导读:Apache Flink 是公认的新一代开源大数据计较引擎,可以支持流处理赏罚、批处理赏罚和呆板进修等多种计较形态,也是Apache 软件基金会和 GitHub 社区最为活泼的项目之一。

2019 年 1 月,阿里巴巴及时计较团队公布将颠末双十一历练和团体内部营业打磨的 Blink 引擎举办开源并向 Apache Flink 孝顺代码,从此的一年中,阿里巴巴及时计较团队与 Apache Flink 社区密合适作,一连推进 Flink 对 Blink 的整合。

2 月 12 日,Apache Flink 1.10.0 正式宣布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的归并。在此基本之上,Flink 1.10 版本在出产可用性、成果、机能上都有大幅晋升。本文将具体为各人先容该版本的重大改观与新增特征。文末更有 Flink 实践精选电子书,现已开放免费下载~

下载地点:https://flink.apache.org/downloads.html

Flink 1.10 是迄今为止局限最大的一次版本进级,除符号着 Blink 的归并完成外,还实现了 Flink 功课的整体机能及不变性的明显优化、对原生 Kubernetes 的起源集成以及对 Python 支持(PyFlink)的重大优化等。

综述

Flink 1.10.0 版本一共有 218 名孝顺者,办理了 1270 个 JIRA issue,经过 2661 个 commit 总共提交了高出 102 万行代码,多项数据比拟之前的几个版本都有所晋升,印证着 Flink 开源社区的发杀青长。

102万行代码,1270个题目,Flink新版宣布了什么?

102万行代码,1270个题目,Flink新版宣布了什么?

个中阿里巴巴及时计较团队共提交 64.5 万行代码,高出总代码量的 60%,做出了突出的孝顺。

102万行代码,1270个题目,Flink新版宣布了什么?

在该版本中,Flink 对 SQL 的 DDL 举办了加强,并实现了出产级此外 Batch 支持和 Hive 兼容,个中 TPC-DS 10T 的机能更是到达了 Hive 3.0 的 7 倍之多。在内核方面,对内存打点举办了优化。在生态方面,增进了 Python UDF 和原生 Kubernetes 集成的支持。后续章节将在这些方面别离举办具体先容。

内存打点优化

在旧版本的 Flink 中,流处理赏罚和批处理赏罚的内存设置是盘据的,而且当流式功课设置行使 RocksDB 存储状态数据时,很难限定其内存行使,从而在容器情形下常常呈现内存超用被杀的环境。 在 1.10.0 中,我们对 Task Executor 的内存模子,尤其是受打点内存(Managed Memory)举办了大幅度的改造(FLIP-49),使得内存设置对用户越发清楚:

102万行代码,1270个题目,Flink新版宣布了什么?

另外,我们还将 RocksDB state backend 行使的内存纳入了托管领域,同时可以通过简朴的设置来指定其能行使的内存上限和读写缓存比例(FLINK-7289)。如下图所示,在现实测试傍边受控前后的内存行使不同很是明明。

102万行代码,1270个题目,Flink新版宣布了什么?

受控前的内存行使环境(share-slot)

102万行代码,1270个题目,Flink新版宣布了什么?

受控后的内存行使环境(share-slot)

Batch 兼容 Hive 且出产可用

Flink 从 1.9.0 版本开始支持 Hive 集成,但并未完全兼容。在 1.10.0 中我们对 Hive 兼容性做了进一步的加强,使其到达出产可用的尺度。详细来说,Flink 1.10.0 中支持:

Meta 兼容 - 支持直接读取 Hive catalog,包围 Hive 1.x/2.x/3.x 所有版本

数据名目兼容 - 支持直接读取 Hive 表,同时也支持写成 Hive 表的名目;支持分区表

UDF 兼容 - 支持在 Flink SQL 内直接挪用 Hive 的 UDF,UDTF 和 UDAF

与此同时,1.10.0 版本中对 batch 执行举办了进一步的优化(FLINK-14133),首要包罗:

向量化读取 ORC (FLINK-14135)

基于比例的弹性内存分派 (FLIP-53)

Shuffle 的压缩 (FLINK-14845)

基于新调治框架的优化 (FLINK-14735)

在此基本大将 Flink 作为计较引擎会见 Hive 的 meta 和数据,在 TPC-DS 10T benchmark 下机能到达 Hive 3.0 的 7 倍以上。

102万行代码,1270个题目,Flink新版宣布了什么?

SQL DDL 加强

Flink 1.10.0 支持在 SQL 建表语句中界说 watermark 和计较列,以 watermark 为例:

CREATE TABLEtable_name ( 

  WATERMARK FOR columnName AS <watermark_strategy_expression> 

) WITH ( 

  ... 

除此之外,Flink 1.10.0 还在 SQL 中对姑且函数/永世函数以及体系/目次函数举办了明晰区分,并支持建设目次函数、姑且函数以及姑且体系函数:

CREATE [TEMPORARY|TEMPORARY SYSTEM] FUNCTION 

[IF NOT EXISTS] [catalog_name.][db_name.]function_name 

AS identifier [LANGUAGE JAVA|SCALA] 

Python UDF 支持

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读