加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

SQL on Hadoop在快手大数据平台的实践与优化

发布时间:2019-06-01 18:56:37 所属栏目:编程 来源:佚名
导读:快手大数据架构工程师钟靓克日在A2M人工智能与呆板进修创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲,首要从SQL on Hadoop先容、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的行使履历和改造说明、快手SQL on Hadoop的未

为了担保焦点使命的不变性,将ETL集群举办了分级,分为焦点集群和一样平常集群。在客户端毗连HS2的时辰,我们会对使命优先级鉴定,高优先级的使命会被路由到焦点集群,低优先级的使命会被路由到一样平常集群。

SQL on Hadoop在快手大数据平台的实践与优化

HiveServer2处事内部流程图

SQL on Hadoop在快手大数据平台的实践与优化

BeaconServer处事

BeaconServer处事为后端Hook Server处事,共同HS2中的Hook,在HS2处事之外实现了所需的成果。当前支持的模块包罗路由、审计、SQL重写、使命节制、错误说明、优化提议等。

• 无状态,BeaconServer处事支持程度扩展。基于哀求量的巨细,可弹性调解处事的局限。



• 设置动态加载,BeaconServer处事支持动态设置加载。各个模块支持开关,处事可动态加载设置实现上下线。好比路由模块,可按照后端加快引擎集群资源环境 ,举办路由比率调解乃至熔断。



• 无缝进级,BeaconServer处事的后端模块可单独举办下线进级操纵,不会影响Hook端HS2处事。




SQL on Hadoop平台在行使中碰着的痛点

SQL on Hadoop在快手大数据平台的实践与优化

行使新引擎举办加快面对的题目

  • Hive支持SPARK与TEZ引擎,但不合用于出产情形。
  • SQL on Hadoop的SQL引擎各有优弱点,用户进修和行使的门槛较高。
  • 差异SQL引擎之间的语法和成果支持上存在差别,必要大量的测试和兼容事变,完全兼容的本钱较高。
  • 差异SQL引擎各自提供处事会给数仓的血缘打点、权限节制、运维打点、资源操作都带来未便。




智能引擎的办理方案

  • 在Hive中,自界说实现引擎。
  • 自动路由成果,不必要配置引擎,自动选择得当的加快引擎。

  • 根绝法则匹配SQL,只将兼容的SQL推给加快引擎。

  • 复用HiveServer2集群架构。

智能引擎:主流引擎方案比拟

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎:HiveServer2自界说执行引擎的模块计划

基于HiveServer2,有两种实现方法。JDBC方法是通过JDBC接口,将SQL发送至后端加快引擎启动的集群上。PROXY方法是将SQL下推给当地的加快引擎启动的Client。

JDBC方法启动的后端集群,均是基于YARN,可以实现资源的分时复用。好比AdHoc集群的资源在夜间会自动接纳,作为报表体系的资源举办复用。

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎:SQL路由方案计划架构

路由方案基于HS2的Hook架构,在HS2端实现对应 Hook,用于引擎切换;后端BeaconServer处事中实现路由 处事,用于SQL的路由法则的匹配处理赏罚。差异集群可设置差异的路由法则。

为了担保后算路由处事的不变性,团队还计划了Rewrite Hook,用于重写AdHoc集群中的SQL,自动添加LIMIT上限,防备大数据量的SCAN。

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎:SQL路由法则一览

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎:方案上风

  • 易于集成,当前主流的SQL引擎都可以利便的实现JDBC与PROXY方法。再通过设置,能简朴的集成新的查询引擎,好比impala、drill等。


  • 自动选择引擎,镌汰了用户的引擎行使本钱,同时也让迁徙变得更简朴。而且在加快引擎过载 的环境下,可以动态调解比例,防备因过载 对加快机能的影响。


  • 自动降级,担保了运行的靠得住性。SQL路由支持failback模块,可以按照设置选择是否再路由引擎执行失败后,回滚到 MR运行。


  • 模块复用,对付新增的引擎,都可以复用HiveServer2定制的血缘收罗、权限认证、并发锁节制等方案,大大低落了行使本钱。


  • 资源复用,对付adhoc查询占用资源可以分时动态调解,有用担保集群资源的操作率。




智能引擎DQL应用结果

SQL on Hadoop在快手大数据平台的实践与优化

HiveServer2中存在的机能题目

SQL on Hadoop在快手大数据平台的实践与优化

FetchTask加快:预排序与逻辑优化

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读