【拭魅战理会】基于HBase的大数据存储在京东的应用场景
对付HBase而言,Zookeeper的浸染是至关重要的。起首Zookeeper是作为HBase Master的HA办理方案。也就是说,是Zookeeper担保了至少有一个HBase Master处于运行状态。而且Zookeeper认真Region和Region Server的注册。着实Zookeeper成长到今朝为止,已经成为了漫衍式大数据框架中容错性的尺度框架。不仅是HBase,险些全部的漫衍式大数据相干的开源框架,都依靠于Zookeeper实现HA。 2. HBase的道理 起首必要知道HBase的集群是通过Zookeeper来举办呆板之前的和谐,也就是说HBase Master与Region Server之间的相关是依靠Zookeeper来维护。当一个Client必要会见HBase集群时,Client必要先和Zookeeper来通讯,然后才会找到对应的Region Server。每一个 Region Server打点着许多个Region。对付HBase来说,Region是HBase并行化的根基单位。因此,数据也都存储在Region中。 这里必要出格留意,每一个Region都只存储一个Column Family的数据,而且是该CF中的一段(按Row 的区间分成多个Region)。Region所能存储的数据巨细是有上限的,当到达该上限时(Threshold),Region会举办破碎,数据也会破碎到多个Region中,这样便可以进步数据的并行化,以及进步数据的容量。 每个Region包括着多个Store工具。每个Store包括一个MemStore,和一个或多个HFile。MemStore即是数据在内存中的实体,而且一样平常都是有序的。当数据向Region写入的时辰,会先写入MemStore。当MemStore中的数据必要向底层文件体系倾倒(Dump)时(譬喻MemStore中的数据体积达到MemStore设置的最大值),Store便会建设StoreFile,而StoreFile就是对HFile一层封装。以是MemStore中的数据会最终写入到HFile中,也就是磁盘IO。因为HBase底层依赖HDFS,因此HFile都存储在HDFS之中。这即是整个HBase事变的道理简述。 四、行使HBase时应留意的题目 基于HBase的体系计划与开拓中,必要思量的身分差异于相关型数据库,HBase模式自己很简朴,但赋予你更多调解的空间,有一些模式写机能很好,但读取数据时示意欠好,可能正好相反,相同传统数据库基于范式的OR建模,在现实项目中思量HBase计划模式是,必要从以下几方面内容着手:
五、总结 现现在各类数据存储方案层出不穷,本文团结两个实沙场景就基于HBase的大数据存储做了简朴的说明,并对HBase的道理做了简朴的叙述。怎样行使好HBase,乃至于怎样选择一个最优的数据存储方案,还必要按照场景必要详细说明和计划。 作者简介 今朝就职于京东商城京麦平台组,从事京东商家开放平台的相干开拓事变。热爱技能,认识各类常用开源框架,有富厚的大型漫衍式体系、高并发体系的开拓履历。热衷于对大数据的研究,对Hadoop、HBase以及ES有深入研究和领略。 【本文是51CTO专栏作者张开涛的原创文章,作者微信公家号:开涛的博客,id:kaitao-1234567】 戳这里,看该作者更多好文 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |