大局限集群妨碍处理赏罚，能抗住这3个魂灵拷问算你赢

发布时间：2019-10-10 06:41:04 所属栏目：建站来源：小火牛

导读：我信托每一个集群打点员，在恒久打点多个差异体量及应用场景的集群后，城市几多发生情感。其拭魅这在我看来，是一个很玄妙的事，即各人也已经开始人道化的对待每一个集群了。既然是人道化的打点集群，我老是会思索几个偏向的题目：集群的出格之处在哪儿?

… ERROR: Region { meta => index_natip201712,#xA0,1512009553152.00d96f6b2de55b56453e7060328b7930., hdfs => hdfs://ns1/hbase_ipsource3/data/default/index_natip201712/00d96f6b2de55b56453e7060328b7930, deployed => } not deployed on any region server. ERROR: Region { meta => index_natip201711,Y`,1509436894266.00e2784a250af945c66fb70370344f2f., hdfs => hdfs://ns1/hbase_ipsource3/data/default/index_natip201711/00e2784a250af945c66fb70370344f2f, deployed => } not deployed on any region server. … ERROR: There is a hole in the region chain between x02 and x02@. You need to create a new .regioninfo and region dir in hdfs to plug the hole. ERROR: There is a hole in the region chain between x04 and x04@. You need to create a new .regioninfo and region dir in hdfs to plug the hole.

每张表可用(online)的 region 数都少于 1000，共存在 391 个 inconsistency，整个集群根基不行用。

由于每张表都不行用，以是通过新建表并将原表的 HFile 文件 BulkLoad 入新表的方案根基不行行。

第一、这种方案耗时太长;第二、做过一个根基测试，假如凭证原表预分区的方法新建表，在 BulkLoad 操纵后，无法在新表上查询数据(get 及 scan 操纵均阻塞，缘故起因未知，起源预计和预分区方法有关)。

基于以上说明，抉择回收 hbck 直接修复兴表的方案举办，不再回收 BulkLoad 方案。

运行呼吁 hbae hbck -repair -fixAssignments -fixMeta，报Repair 进程阻塞非常。

查 HMaster 靠山日记，发明是某个 RegionServer(DSJ-signal-4T-147/10.162.0.175)的毗连数超多造成毗连超时。重启该 RegionServer 后再次运行 hbck -repair -fixAssignments -fixMeta 次序竣事，并乐成修复了全部表的 region un-assignment、hole 及 HBase:meta 题目。

应用层测试整个集群入库正常，题目处理赏罚完成。

10、Kafka集群几回达到机能瓶颈，造成上下流数据传输积存。

Kafka集群节点数50+，集群行使平凡SATA盘，存储手段2000TB，千亿级日流量，常常会呈现个体磁盘IO打满，导致出产断传，斲丧耽误，继而激发斲丧offset越界，单个节点topic设置记录逾期等题目。

1)低落topic副本：

提议假如能低落大部门topic的副本，这个要领是简朴有用的。

降副本之后再把集群的拷贝副本所用的cpu核数低落，可以由num.replica.fetchers=6低落为num.replica.fetchers=3。磁盘IO行使的num.io.threads=14升为num.io.threads=16。num.network.threads=8升为num.network.threads=9。此参数只是暂且压榨呆板机能，当数据量递增时仍会产生妨碍。

2)设定topic建想法则，针对磁盘机能瓶颈做分区指定磁盘迁徙：

假如低落副本生效甚微，思量到今朝集群瓶颈首要在个体磁盘读写IO到达峰值，是因磁盘的topic分区分派不公道导致，发首先先做好针对topic分区级别IO速度的监控，然后形陈类型公道的topic建设分区法则(数据量，流量大的topic先建设;分区数*副本数是磁盘总数的整数倍)，先做到磁盘存储的平衡，再挑出来个体读写IO达到瓶颈的磁盘，按照监控找出读写非常大分区。

找出分区后再次举办针对topic的分区扩容可能针对题目分区举办指定磁盘的迁徙。这样集群的整体操作率和不变机能获得必然的晋升，能节减集群资源。

3)Kafka版本进级及cm纳管：

将手工集群迁徙至cm纳管，并在线进级Kafka版本。

4)zk和broker节点疏散：

举办zk和broker节点的疏散事变，提议举办zk节点变革而不是broker节点变革，以此停止数据拷贝带来的集群负荷，提议建设测试topic，由客户端恰当增进批巨细和镌汰提交频率举办测试，使集群机能到达精良。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？