加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

10分钟零基本就可搞懂的Hadoop架构道理,阿里架构师详解

发布时间:2019-10-24 13:30:54 所属栏目:建站 来源:IT技术管理那些事儿
导读:我本日花了泰半个下战书的时刻,写了这篇hadoop的架构,全篇都是以懂得话的情势,也算是为后头越发具体的每一部门开了个好头吧,假如喜好请点转发和存眷,假若有疑问,直接在评述里说出来,各人一路办理,才气前进。 一、观念 Hadoop降生于2006年,是一款支

Metastore组件:元数据处事组件,这个组件存储Hive的元数据,Hive的元数据存储在相关数据库里,Hive支持的相关数据库有Derby和Mysql。元数据对付Hive异常重要,因此Hive支持把Metastore处事独立出来,安装到长途的处事器集群里,从而解耦Hive处事和Metastore处事,担保Hive运行的结实性;

Thrift处事:Thrift是Facebook开拓的一个软件框架,它用来举办可扩展且跨说话的处事的开拓,Hive集成了该处事,能让差异的编程说话挪用Hive的接口。

4.Hive与传统数据库的异同

(1)查询说话

因为 SQL 被普及的应用在数据客栈中,因此专门针对Hive的特征计划了类SQL的查询说话HQL。认识SQL开拓的开拓者可以很利便的行使Hive举办开拓。

(2)数据存储位置

Hive是成立在Hadoop之上的,全部Hive的数据都是存储在HDFS中的。而数据库则可以将数据生涯在块装备可能当地文件体系中。

(3)数据名目

Hive中没有界说专门的数据名目,数据名目可以由用户指定,用户界说数据名目必要指定三个属性:列脱离符(凡是为空格、”t”、”x001″)、行脱离符(”n”)以及读取文件数据的要领(Hive中默认有三个文件名目TextFile,SequenceFile以及RCFile)。

(4)数据更新

因为Hive是针对数据客栈应用计划的,而数据客栈的内容是读多写少的。因此,Hive中不支持

对数据的改写和添加,全部的数据都是在加载的时辰中确定好的。而数据库中的数据凡是是必要常常举办修改的,因此可以行使INSERT INTO … VALUES添加数据,行使UPDATE … SET修改数据。

(5)索引

Hive在加载数据的进程中不会对数据举办任那里理赏罚,乃至不会对数据举办扫描,因此也没有对数据中的某些Key成立索引。Hive要会见数据中满意前提的特定值时,必要暴力扫描整个数据,因此会见耽误较高。因为MapReduce的引入, Hive可以并行会见数据,因此纵然没有索引,对付大数据量的会见,Hive如故可以浮现出上风。数据库中,凡是会针对一个可能几个列成立索引,因此对付少量的特定前提的数据的会见,数据库可以有很高的服从,较低的耽误。因为数据的会见耽误较高,抉择了Hive不得当在线数据查询。

(6)执行

Hive中大大都查询的执行是通过Hadoop提供的MapReduce来实现的(相同select * from tbl的查询不必要MapReduce)。而数据库凡是有本身的执行引擎。

(7)执行耽误

Hive在查询数据的时辰,因为没有索引,必要扫描整个表,因此耽误较高。其它一个导致Hive执行耽误高的身分是MapReduce框架。因为MapReduce自己具有较高的耽误,因此在操作MapReduce执行Hive查询时,也会有较高的耽误。相对的,数据库的执行耽误较低。虽然,这个低是有前提的,即数据局限较小,当数据局限大到高出数据库的处理赏罚手段的时辰,Hive的并行计较显然能浮现出上风。

(8)可扩展性

因为Hive是成立在Hadoop之上的,因此Hive的可扩展性是和Hadoop的可扩展性是同等的(天下上较量大的Hadoop集群在Yahoo!,2009年的局限在4000台节点阁下)。而数据库因为ACID语义的严酷限定,扩展行很是有限。今朝先辈的并行数据库Oracle在理论上的扩展手段也只有100台阁下。

(9)数据局限

因为Hive成立在集群上并可以操作MapReduce举办并行计较,因此可以支持很大局限的数据;对应的,数据库可以支持的数据局限较小。

Hbase

1.界说

HBase – Hadoop Database,是一个高靠得住性、高机能、面向列、可伸缩的漫衍式存储体系,操作HBase技能可在便宜PC Server上搭建起大局限布局化存储集群。

HBase是Google Bigtable的开源实现,相同Google Bigtable操作GFS作为其文件存储体系,HBase操作Hadoop HDFS作为其文件存储体系;

Google运行MapReduce来处理赏罚Bigtable中的海量数据,HBase同样操作Hadoop MapReduce来处理赏罚HBase中的海量数据;

Google Bigtable操作 Chubby作为协同处事,HBase操作Zookeeper作为协同处事。

2.构成

10分钟零基本就可搞懂的Hadoop架构道理,阿里架构师详解
10分钟零基本就可搞懂的Hadoop架构道理,阿里架构师详解

说明:从上图可以看出:Hbase首要由Client、Zookeeper、HMaster和HRegionServer构成,由Hstore作存储体系。

  • Client

HBase Client行使HBase的RPC机制与HMaster和HRegionServer举办通讯,对付打点类操纵,Client与 HMaster举办RPC;对付数据读写类操纵,Client与HRegionServer举办RPC

  • Zookeeper

Zookeeper Quorum 中除了存储了 -ROOT- 表的地点和 HMaster 的地点,HRegionServer 也会把本身以 Ephemeral 方法注册到 Zookeeper 中,使得 HMaster 可以随时感知到各个HRegionServer 的康健状态。

  • HMaster

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读