加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

SQL on Hadoop在快手大数据平台的实践与优化

发布时间:2019-06-01 18:56:37 所属栏目:编程 来源:佚名
导读:快手大数据架构工程师钟靓克日在A2M人工智能与呆板进修创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲,首要从SQL on Hadoop先容、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的行使履历和改造说明、快手SQL on Hadoop的未
副问题[/!--empirenews.page--]

快手大数据架构工程师钟靓克日在A2M人工智能与呆板进修创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲,首要从SQL on Hadoop先容、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的行使履历和改造说明、快手SQL on Hadoop的将来打算四方面先容了SQL on Hadoop架构。

SQL on Hadoop在快手大数据平台的实践与优化

01SQL on Hadoop先容

SQL on Hadoop,顾名思义它是基于Hadoop生态的一个SQL引擎架构,我们着实经常听到Hive、SparkSQL、Presto、Impala架构,接下来,我会简朴的描写一下常用的架构环境。

SQL on Hadoop-HIVE

HIVE,一个数据客栈体系。它将数据布局映射到存储的数据中,通过SQL对大局限的漫衍式存储数据举办读、写、打点。

SQL on Hadoop在快手大数据平台的实践与优化

按照界说的数据模式,以及输出Storage,它会对输入的SQL颠末编译、优化,天生对应引擎的使命,然后调治执行天生的使命。

HIVE当前支持的引擎范例有:MR、SPARK、TEZ。

SQL on Hadoop在快手大数据平台的实践与优化

基于HIVE自己的架构,尚有一些特另外处事提供方法,好比HiveServer2与MetaStoreServer都是Thrift架构。

另外,HiveServer2提供长途客户端提交SQL使命的成果,MetaStoreServer则提供长途客户端操纵元数据的成果。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop先容-SPARK

Spark,一个快速、易用,以DAG作为执行模式的大局限数据处理赏罚的同一说明引擎,首要模块分为SQL引擎、流式处理赏罚 、呆板进修、图处理赏罚。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop先容-SPARKSQL

SPARKSQL基于SPARK的计较引擎,做到了同一数据会见,集成Hive,支持尺度JDBC毗连。SPARKSQL常用于数据交互说明的场景。

SQL on Hadoop在快手大数据平台的实践与优化

SPARKSQL的首要执行逻辑,起首是将SQL理会为语法树,然后语义说明天生逻辑执行打算,接着与元数据交互,举办逻辑执行打算的优化,最后,将逻辑执行翻译为物理执行打算,即RDD lineage,并执利用命。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop先容-PRESTO

PRESTO,一个交互式说明查询的开源漫衍式SQL查询引擎。

由于基于内存计较,PRESTO的计较机能大于有大量IO操纵的MR和SPARK引擎。它有易于弹性扩展,支持可插拔毗连的特点。

业内的行使案例许多,包罗FaceBook、AirBnb、美团等都有大局限的行使。

SQL on Hadoop在快手大数据平台的实践与优化

SQL on Hadoop先容-其余业内方案

SQL on Hadoop在快手大数据平台的实践与优化

我们看到这么多的SQL on Hadoop架构,它侧面地声名白这种架构较量适用且成熟。操作SQL on Hadoop架构,我们可以实现支持海量数据处理赏罚的需求。

02快手SQL on Hadoop平台概述

快手SQL on Hadoop平台概览—平台局限

SQL on Hadoop在快手大数据平台的实践与优化

查询平台逐日SQL总量在70万阁下,DQL的总量在18万阁下。AdHoc集群首要用于交互说明及呆板查询,DQL均匀耗时为300s;AdHoc在内部有Loacl使命及加快引擎应用,以是查询要求耗时较低。

ETL集群首要用于ETL处理赏罚以及报表的天生。DQL均匀耗时为1000s,DQL P50耗时为100s,DQL P90耗时为4000s,除上述两大集群外,其余小的集群首要用于提供应单独的营业来行使。

快手SQL on Hadoop平台概览—处事条理

SQL on Hadoop在快手大数据平台的实践与优化

处事层是对上层举办应用的。在上层有四个模块,这个中包罗同步处事、ETL平台、AdHoc平台以及用户措施。在调治上层,同样也有四方面的数据,譬喻处事端日记,对它举办处理赏罚后,它会直接接入到HDFS里,我们后续会再对它举办洗濯处理赏罚;处事解决的数据以及数据库信息,则会通过同步处事入到对应的数据源里,且我们会将元数据信息存在后端元数据体系中。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读