加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

为什么Flink会成为下一代大数据处理框架的标准?

发布时间:2019-05-28 03:16:14 所属栏目:教程 来源:张利兵
导读:01 什么是Flink? 在当前数据量激增传统的期间,差异的营业场景都有大量的营业数据发生,对付这些不绝发生的数据应该怎样举办有用地处理赏罚,成为当下大大都公司所面对的题目。 跟着雅虎对Hadoop的开源,越来越多的大数据处理赏罚技能开始涌入人们的视线,譬喻今朝
副问题[/!--empirenews.page--]

01 什么是Flink?

在当前数据量激增传统的期间,差异的营业场景都有大量的营业数据发生,对付这些不绝发生的数据应该怎样举办有用地处理赏罚,成为当下大大都公司所面对的题目。

跟着雅虎对Hadoop的开源,越来越多的大数据处理赏罚技能开始涌入人们的视线,譬喻今朝较量风行大数据处理赏罚引擎Apache Spark,根基上已经代替了MapReduce成为当前大数据处理赏罚的尺度。

但跟着数据的不绝增添,新技能的不绝成长,人们逐渐意识到对及时数据处理赏罚的重要性,企业必要可以或许同时支持高吞吐、低耽误、高机能的流处理赏罚技能来处理赏罚日益增添的数据。

为什么Flink会成为下一代大数据处理赏罚框架的尺度?

相对付传统的数据处理赏罚模式,流式数据处理赏罚则有着更高的处理赏罚服从和本钱节制。Apache Flink就是连年来在开源社区成长不绝成长的可以或许支持同时支持高吞吐、低耽误、高机能漫衍式处理赏罚框架。

在2010至2014年间,由柏林家产大学,柏林洪堡大学和哈索普拉特纳研究所连系提倡名为“Stratosphere: Information Management on the Cloud”研究项目,该项目在其时的社区逐渐具有必然社区知名度,2014年4月,Stratosphere代码被孝顺给Apache 软件基金会,成为Apache基金会孵化器项目。

期初参加该项目标焦点成员均来自Stratosphere原本的焦点成员,之后团队的大部门首创成员分开学校,配合开办了一家名叫Data Artisans的公司,其首要营业即是将Stratosphere,也就是之后的Flink实现贸易化。在项目孵化时代,项目Stratosphere更名为Flink。

Flink在德语中是快速和迅速的意思,用来浮现流式数据处理赏罚器的速率快和机动性强等特点,同时行使棕赤色松鼠图案作为Flink项目标Logo,也是首要借助于松鼠机动快速的特点,由此Flink开始正式地进入社区开拓者的视线。

02 为什么Flink会成为下一代大数据处理赏罚框架的尺度?

在2014年12月,该项目成为Apache 软件基金会顶级项目,从2015年09月宣布第一个不变版本0.9,到2019年4月已经宣布到1.8的版本,更多的社区开拓成员也慢慢地插手,此刻Flink在环球范畴内拥有350多位的开拓职员,不绝有新的特征被宣布。

同时在环球范畴内,越来越多的公司开始行使Flink,在海内较量着名的互联网公司如Alibaba,美团,滴滴等,都在大局限的行使Flink作为企业的漫衍式大数据处理赏罚引擎。

Flink在连年来慢慢被人们所熟知和行使,其首要缘故起因不只由于提供同时支持高吞吐、低耽误和exactly-once语义的及时计较手段,同时Flink还提供了基于流式计较引擎处理赏罚批量数据的计较手段,真正意义实现了批流同一,同时跟着Alibaba对Blink的开源,极大地加强了Flink对批计较规模的支持。

浩瀚优越的特征,使得Flink成为开源大数据数据处理赏罚框架中的一颗新星,跟着海内社区不绝敦促,越来越多的海内公司开始选择行使Flink作为及时数据处理赏罚的技能,在未来不久的时刻内,Flink也将会成为企业内部主流的数据处理赏罚框架,最终成为下一代大数据数据处理赏罚框架的尺度。

03 Flink的重要特征及上风

有状态流计较将会跟着技能的成长,慢慢成为企业作为构建数据平台的架构模式,而这种技能实现的开源方案今朝从社区来看,可以或许满意的就是Apache Flink。Flink通过实现Google Dataflow流式计较模子实现了高吞吐,低耽误,高机能兼具及时流式计较框架。

为什么Flink会成为下一代大数据处理赏罚框架的尺度?

▲有状态计较架构

同时Flink支持高效容错的状态打点,Flink可以或许将其状态维护在内存或RockDB数据库中,为了防备状态在计较进程中由于体系非常而呈现丢失,Flink周期性的通过漫衍式快照技能CheckPoints实近况态的耐久化维护,使得在体系纵然在停机可能非常的环境下都能正确的举办状态规复,从而担保在任何时刻都能计较出正确的功效。

数据架构的演变进程,陪伴着技能的不绝迭代更新,Flink具有先辈的架构理念,以及诸多的优越特征,以及完美的编程接口,而Flink也在每一次的Release版本中,不绝推出新的特征。

譬喻Queryable State成果的提出,将直接允许用户通过长途的方法直接获取流式计较使命的状态信息,也就是说数据不必要落地数据库就能直接从流式应用中直接查询出,对付及时交互式的查询营业可以直接从Flink的状态中查询最新的功效,虽然这个成果今朝还属于Beta版本,可是信托在不久的将来,会变得越来越完美,当时Flink将不只作为及时流式处理赏罚的框架,更多的也许会成为一套及时的存储引擎,会让更多的用户从有状态计较的技能中获取收益。

为什么Flink会成为下一代大数据处理赏罚框架的尺度?

同时支持高吞吐、低耽误、高机能

Flink是一套集高吞吐,低耽误,高机能三者于一身的漫衍式流式数据处理赏罚框架。

很是成熟的计较框架Apache Spark也只能分身高吞吐和高机能特征,在Spark Streaming流式计较中无法做到低耽误保障;而Apache Storm只能支持低耽误和高机能特征,可是无法满意高吞吐的要求。而对付满意高吞吐,低耽误,高机能这三个方针对漫衍式流式计较框架长短常重要的。

支持变乱时刻(Event Time)观念

在流式计较规模中,窗口计较的职位举足轻重,但今朝大大都计较框架窗口计较所回收的都是体系时刻(Process Time),也是变乱传输到计较框架处理赏罚时,体系主机的当前时刻,Flink可以或许支持基于变乱时刻(Event Time)语义的举办窗口计较,就是行使变乱发生的时刻,这种时刻机制使得变乱纵然无序达到乃至耽误达到,数据流都可以或许计较出准确的功效,同时保持了变乱本来发生时的在时刻维度的特点,而不受收集传输可能计较框架的影响。

支持有状态计较

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读