Apache Flink在唯品会的实践

发布时间：2018-11-15 10:17:49 所属栏目：教程来源：王新春

导读：唯品会及时平台近况今朝在唯品会及时平台并不是一个同一的计较框架，而是包罗Storm，Spark，Flink在内的三个首要计较框架。因为汗青缘故起因，当前在Storm平台上的job数目是最多的，可是从客岁开始，营业重心逐渐切换到Flink上面，以是本年在Flink上面的应用

对应Flink集群所依靠的HDFS等其他设置，则通过建设configmap来打点和维护。

kubectl create configmap hdfs-conf --from-file=hdfs-site.xml --from-file=core-site.xml

后续打算

当前及时体系，呆板进修平台要处理赏罚的数据漫衍在各类数据存储组件中，如Kafka、Redis、Tair和HDFS等，怎样利便高效的会见，处理赏罚，共享这些数据是一个很大的挑衅，对付当前的数据会见息争析经常必要淹灭许多的精神，首要的痛点包罗：

对付Kafka，Redis，Tair中的binary(PB/Avro等名目)数据，行使者无法快速直接的相识数据的schema与数据内容，收罗数据内容及与写入者的雷同本钱很高。
因为穷乏独立的同一数据体系处事，对Kafka，Redis，Tair等中的binary数据会见必要依靠写入者提供的信息，如proto天生类，数据名目wiki界说等，维护本钱高，轻易堕落。
缺乏relational schema使得行使者无法直接基于更高效易用的SQL或LINQ层API开拓营业。
无法通过一个独立的处事利便的宣布和共享数据。
及时数据无法直接提供应Batch SQL引擎行使。
另外，对付当前大部门的数据源的会见也穷乏审计，权限打点，会见监控，跟踪等特征。

UDM(同一数据打点体系)包罗Location Manager, Schema Metastore以及Client Proxy等模块，首要的成果包罗：

UDM的整体架构如下图所示：

Apache Flink在唯品会的实践

UDM的行使者包罗及时，呆板进修以及离线平台中数据的出产者和行使者。在行使Sql API或Table API的时辰，起首完成Schema的注册，之后行使Sql举办开拓，低落了开拓代码量。

Apache Flink在唯品会的实践

在Flink中，行使UDMExternalCatalog来买通Flink计较框架和UDM之间的桥梁，通过实现ExternalCatalog的各个接口，以及实现各自数据源的TableSourceFactory，完成Schema和接入管控等各项成果。

关于作者：王新春今朝在唯品会认真及时平台相干内容，首要包罗及时计较框架和提供及时基本数据，以及呆板进修平台的事变。之前在美团点评，也是认真大数据平台事变。他已经在大数据及时处理赏罚偏向蕴蓄了富厚的事变履历。

【编辑保举】

【责任编辑：未丽燕 TEL：（010）68476606】
点赞 0

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您