加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

大局限集群妨碍处理赏罚,能抗住这3个魂灵拷问算你赢

发布时间:2019-10-10 06:41:04 所属栏目:建站 来源:小火牛
导读:我信托每一个集群打点员,在恒久打点多个差异体量及应用场景的集群后,城市几多发生情感。其拭魅这在我看来,是一个很玄妙的事,即各人也已经开始人道化的对待每一个集群了。 既然是人道化的打点集群,我老是会思索几个偏向的题目: 集群的出格之处在哪儿?

… ERROR: Region { meta => index_natip201712,#xA0,1512009553152.00d96f6b2de55b56453e7060328b7930., hdfs => hdfs://ns1/hbase_ipsource3/data/default/index_natip201712/00d96f6b2de55b56453e7060328b7930, deployed => } not deployed on any region server. ERROR: Region { meta => index_natip201711,Y`,1509436894266.00e2784a250af945c66fb70370344f2f., hdfs => hdfs://ns1/hbase_ipsource3/data/default/index_natip201711/00e2784a250af945c66fb70370344f2f, deployed => } not deployed on any region server. … ERROR: There is a hole in the region chain between x02 and x02@. You need to create a new .regioninfo and region dir in hdfs to plug the hole. ERROR: There is a hole in the region chain between x04 and x04@. You need to create a new .regioninfo and region dir in hdfs to plug the hole.

每张表可用(online)的 region 数都少于 1000,共存在 391 个 inconsistency,整个集群根基不行用。

由于每张表都不行用,以是通过新建表并将原表的 HFile 文件 BulkLoad 入新表的方案根基不行行。

第一、这种方案耗时太长;第二、做过一个根基测试,假如凭证原表预 分区的方法新建表,在 BulkLoad 操纵后,无法在新表上查询数据(get 及 scan 操纵均 阻塞,缘故起因未知,起源预计和预分区方法有关)。

基于以上说明,抉择回收 hbck 直接修复兴表的方案举办,不再回收 BulkLoad 方案。

运行呼吁 hbae hbck -repair -fixAssignments -fixMeta,报Repair 进程阻塞非常。

查 HMaster 靠山日记,发明是某个 RegionServer(DSJ-signal-4T-147/10.162.0.175)的毗连数超多造成毗连超时。重启该 RegionServer 后再次运行 hbck -repair -fixAssignments -fixMeta 次序竣事,并乐成修复了全部表的 region un-assignment、hole 及 HBase:meta 题目。

应用层测试整个集群入库正常,题目处理赏罚完成。

10、Kafka集群几回达到机能瓶颈,造成上下流数据传输积存。

Kafka集群节点数50+,集群行使平凡SATA盘,存储手段2000TB,千亿级日流量,常常会呈现个体磁盘IO打满,导致出产断传,斲丧耽误,继而激发斲丧offset越界,单个节点topic设置记录逾期等题目。

1)低落topic副本:

提议假如能低落大部门topic的副本,这个要领是简朴有用的。

降副本之后再把集群的拷贝副本所用的cpu核数低落,可以由num.replica.fetchers=6低落为num.replica.fetchers=3。磁盘IO行使的num.io.threads=14升为num.io.threads=16。num.network.threads=8升为num.network.threads=9。此参数只是暂且压榨呆板机能,当数据量递增时仍会产生妨碍。

2)设定topic建想法则,针对磁盘机能瓶颈做分区指定磁盘迁徙:

假如低落副本生效甚微,思量到今朝集群瓶颈首要在个体磁盘读写IO到达峰值,是因磁盘的topic分区分派不公道导致,发首先先做好针对topic分区级别IO速度的监控,然后形陈类型公道的topic建设分区法则(数据量,流量大的topic先建设;分区数*副本数是磁盘总数的整数倍),先做到磁盘存储的平衡,再挑出来个体读写IO达到瓶颈的磁盘,按照监控找出读写非常大分区。

找出分区后再次举办针对topic的分区扩容可能针对题目分区举办指定磁盘的迁徙。这样集群的整体操作率和不变机能获得必然的晋升,能节减集群资源。

3)Kafka版本进级及cm纳管:

将手工集群迁徙至cm纳管,并在线进级Kafka版本。

4)zk和broker节点疏散:

举办zk和broker节点的疏散事变,提议举办zk节点变革而不是broker节点变革,以此停止数据拷贝带来的集群负荷,提议建设测试topic,由客户端恰当增进批巨细和镌汰提交频率举办测试,使集群机能到达精良

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读