加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

Kubernetes节点之间的ping监控

发布时间:2019-10-18 21:10:05 所属栏目:建站 来源:dummy
导读:在诊断Kubernetes集群题目的时辰,我们常常留意到集群中某一节点在闪烁*,而这凡是是随机的且以稀疏的方法产生。这就是为什么我们一向必要一种器材,它可以测试一个节点与另一个节点之间的可达性,并以Prometheus怀抱情势泛起功效。有了这个器材,我们还希
副问题[/!--empirenews.page--]

在诊断Kubernetes集群题目的时辰,我们常常留意到集群中某一节点在闪烁*,而这凡是是随机的且以稀疏的方法产生。这就是为什么我们一向必要一种器材,它可以测试一个节点与另一个节点之间的可达性,并以Prometheus怀抱情势泛起功效。有了这个器材,我们还但愿在Grafana中建设图表并快速定位产生妨碍的节点(并在须要时将该节点上全部Pod举办从头调治并举办须要的维护)。

“闪烁”这里我是指某个节点随机变为“NotReady”但之后又规复正常的某种举动。譬喻部门流量也许无法达到相邻节点上的Pod。

为什么会产生这种环境?常见缘故起因之一是数据中心互换机中的毗连题目。譬喻,我们曾经在Hetzner中配置一个vswitch,个中一个节点已无法通过该vswitch端口行使,而且刚亏适当地收集上完全不行会见。

我们的最后一个要求是可直接在Kubernetes中运行此处事,因此我们将可以或许通过Helm图表陈设全部内容。(譬喻在行使Ansible的环境下,我们必需为各类情形中的每个脚色界说脚色:AWS、GCE、裸机等)。因为我们尚未找到针对此情形的现成办理方案,因此我们抉择本身来实现。

剧本和设置

我们办理方案的首要组件是一个剧本,该剧本监督每个节点的.status.addresses值。假如某个节点的该值已变动(譬喻添加了新节点),则我们的剧本行使Helm value方法将节点列表以ConfigMap的情势转达给Helm图表:

  1. apiVersion: v1 
  2. kind: ConfigMap 
  3. metadata: 
  4. name: ping-exporter-config 
  5. namespace: d8-system 
  6. data: 
  7. nodes.json: > 
  8. {{ .Values.pingExporter.targets | toJson }}  
  9.  
  10.  
  11. .Values.pingExporter.targets相同以下: 
  12.  
  13. "cluster_targets":[{"ipAddress":"192.168.191.11","name":"kube-a-3"},{"ipAddress":"192.168.191.12","name":"kube-a-2"},{"ipAddress":"192.168.191.22","name":"kube-a-1"},{"ipAddress":"192.168.191.23","name":"kube-db-1"},{"ipAddress":"192.168.191.9","name":"kube-db-2"},{"ipAddress":"51.75.130.47","name":"kube-a-4"}],"external_targets":[{"host":"8.8.8.8","name":"google-dns"},{"host":"youtube.com"}]}  

下面是Python剧本:

  1. #!/usr/bin/env python3 
  2.  
  3. import subprocess 
  4. import prometheus_client 
  5. import re 
  6. import statistics 
  7. import os 
  8. import json 
  9. import glob 
  10. import better_exchook 
  11. import datetime 
  12.  
  13. better_exchook.install() 
  14.  
  15. FPING_CMDLINE = "/usr/sbin/fping -p 1000 -C 30 -B 1 -q -r 1".split(" ") 
  16. FPING_REGEX = re.compile(r"^(S*)s*: (.*)$", re.MULTILINE) 
  17. CONFIG_PATH = "/config/targets.json" 
  18.  
  19. registry = prometheus_client.CollectorRegistry() 
  20.  
  21. prometheus_exceptions_counter =  
  22. prometheus_client.Counter('kube_node_ping_exceptions', 'Total number of exceptions', [], registry=registry) 
  23.  
  24. prom_metrics_cluster = {"sent": prometheus_client.Counter('kube_node_ping_packets_sent_total', 
  25.                                               'ICMP packets sent', 
  26.                                               ['destination_node', 'destination_node_ip_address'], 
  27.                                               registry=registry), 
  28.             "received": prometheus_client.Counter('kube_node_ping_packets_received_total', 
  29.                                                   'ICMP packets received', 
  30.                                                  ['destination_node', 'destination_node_ip_address'], 
  31.                                                  registry=registry), 
  32.             "rtt": prometheus_client.Counter('kube_node_ping_rtt_milliseconds_total', 
  33.                                              'round-trip time', 
  34.                                             ['destination_node', 'destination_node_ip_address'], 
  35.                                             registry=registry), 
  36.             "min": prometheus_client.Gauge('kube_node_ping_rtt_min', 'minimum round-trip time', 
  37.                                            ['destination_node', 'destination_node_ip_address'], 
  38.                                            registry=registry), 
  39.             "max": prometheus_client.Gauge('kube_node_ping_rtt_max', 'maximum round-trip time', 
  40.                                            ['destination_node', 'destination_node_ip_address'], 
  41.                                            registry=registry), 
  42.             "mdev": prometheus_client.Gauge('kube_node_ping_rtt_mdev', 
  43.                                             'mean deviation of round-trip times', 
  44.                                             ['destination_node', 'destination_node_ip_address'], 
  45.                                             registry=registry)} 
  46.  
  47.  
  48. prom_metrics_external = {"sent": prometheus_client.Counter('external_ping_packets_sent_total', 
  49.                                               'ICMP packets sent', 
  50.                                               ['destination_name', 'destination_host'], 
  51.                                               registry=registry), 
  52.             "received": prometheus_client.Counter('external_ping_packets_received_total', 
  53.                                                   'ICMP packets received', 
  54.                                                  ['destination_name', 'destination_host'], 
  55.                                                  registry=registry), 
  56.             "rtt": prometheus_client.Counter('external_ping_rtt_milliseconds_total', 
  57.                                              'round-trip time', 
  58.                                             ['destination_name', 'destination_host'], 
  59.                                             registry=registry), 
  60.             "min": prometheus_client.Gauge('external_ping_rtt_min', 'minimum round-trip time', 
  61.                                            ['destination_name', 'destination_host'], 
  62.                                            registry=registry), 
  63.             "max": prometheus_client.Gauge('external_ping_rtt_max', 'maximum round-trip time', 
  64.                                            ['destination_name', 'destination_host'], 
  65.                                            registry=registry), 
  66.             "mdev": prometheus_client.Gauge('external_ping_rtt_mdev', 
  67.                                             'mean deviation of round-trip times', 
  68.                                             ['destination_name', 'destination_host'], 
  69.                                             registry=registry)} 
  70.  
  71. def validate_envs(): 
  72. envs = {"MY_NODE_NAME": os.getenv("MY_NODE_NAME"), "PROMETHEUS_TEXTFILE_DIR": os.getenv("PROMETHEUS_TEXTFILE_DIR"), 
  73.         "PROMETHEUS_TEXTFILE_PREFIX": os.getenv("PROMETHEUS_TEXTFILE_PREFIX")} 
  74.  
  75. for k, v in envs.items(): 
  76.     if not v: 
  77.         raise ValueError("{} environment variable is empty".format(k)) 
  78.  
  79. return envs 
  80.  
  81.  
  82. @prometheus_exceptions_counter.count_exceptions() 
  83. def compute_results(results): 
  84. computed = {} 
  85.  
  86. matches = FPING_REGEX.finditer(results) 
  87. for match in matches: 
  88.     host = match.group(1) 
  89.     ping_results = match.group(2) 
  90.     if "duplicate" in ping_results: 
  91.         continue 
  92.     splitted = ping_results.split(" ") 
  93.     if len(splitted) != 30: 
  94.         raise ValueError("ping returned wrong number of results: "{}"".format(splitted)) 
  95.  
  96.     positive_results = [float(x) for x in splitted if x != "-"] 
  97.     if len(positive_results) > 0: 
  98.         computed[host] = {"sent": 30, "received": len(positive_results), 
  99.                         "rtt": sum(positive_results), 
  100.                         "max": max(positive_results), "min": min(positive_results), 
  101.                         "mdev": statistics.pstdev(positive_results)} 
  102.     else: 
  103.         computed[host] = {"sent": 30, "received": len(positive_results), "rtt": 0, 
  104.                         "max": 0, "min": 0, "mdev": 0} 
  105. if not len(computed): 
  106.     raise ValueError("regex match"{}" found nothing in fping output "{}"".format(FPING_REGEX, results)) 
  107. return computed 
  108.  
  109.  
  110. @prometheus_exceptions_counter.count_exceptions() 
  111. def call_fping(ips): 
  112. cmdline = FPING_CMDLINE + ips 
  113. process = subprocess.run(cmdline, stdout=subprocess.PIPE, 
  114.                          stderr=subprocess.STDOUT, universal_newlines=True) 
  115. if process.returncode == 3: 
  116.     raise ValueError("invalid arguments: {}".format(cmdline)) 
  117. if process.returncode == 4: 
  118.     raise OSError("fping reported syscall error: {}".format(process.stderr)) 
  119.  
  120. return process.stdout 
  121.  
  122.  
  123. envs = validate_envs() 
  124.  
  125. files = glob.glob(envs["PROMETHEUS_TEXTFILE_DIR"] + "*") 
  126. for f in files: 
  127. os.remove(f) 
  128.  
  129. labeled_prom_metrics = {"cluster_targets": [], "external_targets": []} 
  130.  
  131. while True: 
  132. with open(CONFIG_PATH, "r") as f: 
  133.     config = json.loads(f.read()) 
  134.     config["external_targets"] = [] if config["external_targets"] is None else config["external_targets"] 
  135.     for target in config["external_targets"]: 
  136.         target["name"] = target["host"] if "name" not in target.keys() else target["name"] 
  137.  
  138. if labeled_prom_metrics["cluster_targets"]: 
  139.     for metric in labeled_prom_metrics["cluster_targets"]: 
  140.         if (metric["node_name"], metric["ip"]) not in [(node["name"], node["ipAddress"]) for node in config['cluster_targets']]: 
  141.             for k, v in prom_metrics_cluster.items(): 
  142.                 v.remove(metric["node_name"], metric["ip"]) 
  143.  
  144. if labeled_prom_metrics["external_targets"]: 
  145.     for metric in labeled_prom_metrics["external_targets"]: 
  146.         if (metric["target_name"], metric["host"]) not in [(target["name"], target["host"]) for target in config['external_targets']]: 
  147.             for k, v in prom_metrics_external.items(): 
  148.                 v.remove(metric["target_name"], metric["host"]) 
  149.  
  150.  
  151. labeled_prom_metrics = {"cluster_targets": [], "external_targets": []} 
  152.  
  153. for node in config["cluster_targets"]: 
  154.     metrics = {"node_name": node["name"], "ip": node["ipAddress"], "prom_metrics": {}} 
  155.  
  156.     for k, v in prom_metrics_cluster.items(): 
  157.         metrics["prom_metrics"][k] = v.labels(node["name"], node["ipAddress"]) 
  158.  
  159.     labeled_prom_metrics["cluster_targets"].append(metrics) 
  160.  
  161. for target in config["external_targets"]: 
  162.     metrics = {"target_name": target["name"], "host": target["host"], "prom_metrics": {}} 
  163.  
  164.     for k, v in prom_metrics_external.items(): 
  165.         metrics["prom_metrics"][k] = v.labels(target["name"], target["host"]) 
  166.  
  167.     labeled_prom_metrics["external_targets"].append(metrics) 
  168.  
  169. out = call_fping([prom_metric["ip"]   for prom_metric in labeled_prom_metrics["cluster_targets"]] +  
  170.                  [prom_metric["host"] for prom_metric in labeled_prom_metrics["external_targets"]]) 
  171. computed = compute_results(out) 
  172.  
  173. for dimension in labeled_prom_metrics["cluster_targets"]: 
  174.     result = computed[dimension["ip"]] 
  175.     dimension["prom_metrics"]["sent"].inc(computed[dimension["ip"]]["sent"]) 
  176.     dimension["prom_metrics"]["received"].inc(computed[dimension["ip"]]["received"]) 
  177.     dimension["prom_metrics"]["rtt"].inc(computed[dimension["ip"]]["rtt"]) 
  178.     dimension["prom_metrics"]["min"].set(computed[dimension["ip"]]["min"]) 
  179.     dimension["prom_metrics"]["max"].set(computed[dimension["ip"]]["max"]) 
  180.     dimension["prom_metrics"]["mdev"].set(computed[dimension["ip"]]["mdev"]) 
  181.  
  182. for dimension in labeled_prom_metrics["external_targets"]: 
  183.     result = computed[dimension["host"]] 
  184.     dimension["prom_metrics"]["sent"].inc(computed[dimension["host"]]["sent"]) 
  185.     dimension["prom_metrics"]["received"].inc(computed[dimension["host"]]["received"]) 
  186.     dimension["prom_metrics"]["rtt"].inc(computed[dimension["host"]]["rtt"]) 
  187.     dimension["prom_metrics"]["min"].set(computed[dimension["host"]]["min"]) 
  188.     dimension["prom_metrics"]["max"].set(computed[dimension["host"]]["max"]) 
  189.     dimension["prom_metrics"]["mdev"].set(computed[dimension["host"]]["mdev"]) 
  190.  
  191. prometheus_client.write_to_textfile( 
  192.    
    envs["PROMETHEUS_TEXTFILE_DIR"] + envs["PROMETHEUS_TEXTFILE_PREFIX"] + envs["MY_NODE_NAME"] + ".prom", registry)  
    

该剧本在每个Kubernetes节点上运行,而且每秒两次发送ICMP数据包到Kubernetes集群的全部实例。网络的功效会存储在文本文件中。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读