10分钟零基本就可搞懂的Hadoop架构道理,阿里架构师详解
Metastore组件:元数据处事组件,这个组件存储Hive的元数据,Hive的元数据存储在相关数据库里,Hive支持的相关数据库有Derby和Mysql。元数据对付Hive异常重要,因此Hive支持把Metastore处事独立出来,安装到长途的处事器集群里,从而解耦Hive处事和Metastore处事,担保Hive运行的结实性; Thrift处事:Thrift是Facebook开拓的一个软件框架,它用来举办可扩展且跨说话的处事的开拓,Hive集成了该处事,能让差异的编程说话挪用Hive的接口。 4.Hive与传统数据库的异同 (1)查询说话 因为 SQL 被普及的应用在数据客栈中,因此专门针对Hive的特征计划了类SQL的查询说话HQL。认识SQL开拓的开拓者可以很利便的行使Hive举办开拓。 (2)数据存储位置 Hive是成立在Hadoop之上的,全部Hive的数据都是存储在HDFS中的。而数据库则可以将数据生涯在块装备可能当地文件体系中。 (3)数据名目 Hive中没有界说专门的数据名目,数据名目可以由用户指定,用户界说数据名目必要指定三个属性:列脱离符(凡是为空格、”t”、”x001″)、行脱离符(”n”)以及读取文件数据的要领(Hive中默认有三个文件名目TextFile,SequenceFile以及RCFile)。 (4)数据更新 因为Hive是针对数据客栈应用计划的,而数据客栈的内容是读多写少的。因此,Hive中不支持 对数据的改写和添加,全部的数据都是在加载的时辰中确定好的。而数据库中的数据凡是是必要常常举办修改的,因此可以行使INSERT INTO … VALUES添加数据,行使UPDATE … SET修改数据。 (5)索引 Hive在加载数据的进程中不会对数据举办任那里理赏罚,乃至不会对数据举办扫描,因此也没有对数据中的某些Key成立索引。Hive要会见数据中满意前提的特定值时,必要暴力扫描整个数据,因此会见耽误较高。因为MapReduce的引入, Hive可以并行会见数据,因此纵然没有索引,对付大数据量的会见,Hive如故可以浮现出上风。数据库中,凡是会针对一个可能几个列成立索引,因此对付少量的特定前提的数据的会见,数据库可以有很高的服从,较低的耽误。因为数据的会见耽误较高,抉择了Hive不得当在线数据查询。 (6)执行 Hive中大大都查询的执行是通过Hadoop提供的MapReduce来实现的(相同select * from tbl的查询不必要MapReduce)。而数据库凡是有本身的执行引擎。 (7)执行耽误 Hive在查询数据的时辰,因为没有索引,必要扫描整个表,因此耽误较高。其它一个导致Hive执行耽误高的身分是MapReduce框架。因为MapReduce自己具有较高的耽误,因此在操作MapReduce执行Hive查询时,也会有较高的耽误。相对的,数据库的执行耽误较低。虽然,这个低是有前提的,即数据局限较小,当数据局限大到高出数据库的处理赏罚手段的时辰,Hive的并行计较显然能浮现出上风。 (8)可扩展性 因为Hive是成立在Hadoop之上的,因此Hive的可扩展性是和Hadoop的可扩展性是同等的(天下上较量大的Hadoop集群在Yahoo!,2009年的局限在4000台节点阁下)。而数据库因为ACID语义的严酷限定,扩展行很是有限。今朝先辈的并行数据库Oracle在理论上的扩展手段也只有100台阁下。 (9)数据局限 因为Hive成立在集群上并可以操作MapReduce举办并行计较,因此可以支持很大局限的数据;对应的,数据库可以支持的数据局限较小。 Hbase 1.界说 HBase – Hadoop Database,是一个高靠得住性、高机能、面向列、可伸缩的漫衍式存储体系,操作HBase技能可在便宜PC Server上搭建起大局限布局化存储集群。 HBase是Google Bigtable的开源实现,相同Google Bigtable操作GFS作为其文件存储体系,HBase操作Hadoop HDFS作为其文件存储体系; Google运行MapReduce来处理赏罚Bigtable中的海量数据,HBase同样操作Hadoop MapReduce来处理赏罚HBase中的海量数据; Google Bigtable操作 Chubby作为协同处事,HBase操作Zookeeper作为协同处事。 2.构成 ![]() ![]() 说明:从上图可以看出:Hbase首要由Client、Zookeeper、HMaster和HRegionServer构成,由Hstore作存储体系。
HBase Client行使HBase的RPC机制与HMaster和HRegionServer举办通讯,对付打点类操纵,Client与 HMaster举办RPC;对付数据读写类操纵,Client与HRegionServer举办RPC
Zookeeper Quorum 中除了存储了 -ROOT- 表的地点和 HMaster 的地点,HRegionServer 也会把本身以 Ephemeral 方法注册到 Zookeeper 中,使得 HMaster 可以随时感知到各个HRegionServer 的康健状态。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |