加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Apache Flink在唯品会的实践

发布时间:2018-11-15 10:17:49 所属栏目:教程 来源:王新春
导读:唯品会及时平台近况 今朝在唯品会及时平台并不是一个同一的计较框架,而是包罗Storm,Spark,Flink在内的三个首要计较框架。因为汗青缘故起因,当前在Storm平台上的job数目是最多的,可是从客岁开始,营业重心逐渐切换到Flink上面,以是本年在Flink上面的应用

对应Flink集群所依靠的HDFS等其他设置,则通过建设configmap来打点和维护。

  1. kubectl create configmap hdfs-conf --from-file=hdfs-site.xml --from-file=core-site.xml 

后续打算

当前及时体系,呆板进修平台要处理赏罚的数据漫衍在各类数据存储组件中,如Kafka、Redis、Tair和HDFS等,怎样利便高效的会见,处理赏罚,共享这些数据是一个很大的挑衅,对付当前的数据会见息争析经常必要淹灭许多的精神,首要的痛点包罗:

  • 对付Kafka,Redis,Tair中的binary(PB/Avro等名目)数据,行使者无法快速直接的相识数据的schema与数据内容,收罗数据内容及与写入者的雷同本钱很高。
  • 因为穷乏独立的同一数据体系处事,对Kafka,Redis,Tair等中的binary数据会见必要依靠写入者提供的信息,如proto天生类,数据名目wiki界说等,维护本钱高,轻易堕落。
  • 缺乏relational schema使得行使者无法直接基于更高效易用的SQL或LINQ层API开拓营业。
  • 无法通过一个独立的处事利便的宣布和共享数据。
  • 及时数据无法直接提供应Batch SQL引擎行使。
  • 另外,对付当前大部门的数据源的会见也穷乏审计,权限打点,会见监控,跟踪等特征。

UDM(同一数据打点体系)包罗Location Manager, Schema Metastore以及Client Proxy等模块,首要的成果包罗:

  • 提供从名字到地点的映射处事,行使者通过抽象名字而不是详细地点会见数据。
  • 用户可以利便的通过Web GUI界面利便的查察数据Schema,探查数据内容。
  • 提供支持审计,监控,溯源等附加成果的Client API Proxy。
  • 在Spark/Flink/Storm等框架中,以最得当行使的情势提供这些数据源的封装。

UDM的整体架构如下图所示:

Apache Flink在唯品会的实践

UDM的行使者包罗及时,呆板进修以及离线平台中数据的出产者和行使者。在行使Sql API或Table API的时辰,起首完成Schema的注册,之后行使Sql举办开拓,低落了开拓代码量。

Apache Flink在唯品会的实践

在Flink中,行使UDMExternalCatalog来买通Flink计较框架和UDM之间的桥梁,通过实现ExternalCatalog的各个接口,以及实现各自数据源的TableSourceFactory,完成Schema和接入管控等各项成果。

关于作者:王新春今朝在唯品会认真及时平台相干内容,首要包罗及时计较框架和提供及时基本数据,以及呆板进修平台的事变。之前在美团点评,也是认真大数据平台事变。他已经在大数据及时处理赏罚偏向蕴蓄了富厚的事变履历。

【编辑保举】

  1. 深入领略Apache Flink焦点技能
  2. 基于Apache Flink的及时计较引擎Blink在阿里搜刮中的应用
  3. Apache Flink实现的数据流系统布局
  4. 一文读懂Apache Flink技能
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读