6个人如何维护上千规模的大数据集群呢?
饿了么大数据集群天天运行的 Spark&MR 使命 25W+,这些数据具体记录了每一个 Mapper/Reducer 可能 Spark 的 Task 的运行环境,假如可以或许充实操作,将会发生庞大的代价。即充实操作集群自己数据,数据驱动集群建树。 这些数据不只可以有助于集群打点职员监控集群自己的计较资源、存储资源耗损,使命机能说明,主机运行状态。还可以辅佐用户自助说明使命运行失败缘故起因,使命运行机能说明等。 饿了么大数据团队开拓的 Grace 项目就是在这方面的一个示例。 Grace 行使场景 你对集群使命运行状况具体数据没有明晰熟悉的话,很轻易当呈现题目时陷入逆境,从监控看到集群非常后将无法继承进一步快速定位题目。 当常常有效户找你说,我的使命为什么跑失败了?我的使命为什么跑的这么慢?我的使命能调一下优先级么?不要跟我说看日记,我看不懂。我想各民气田都是瓦解的。 当监控发出 NameNode 非常发抖,收集飚高,block 建设增进,block 建设延时增大等告警时,应该怎样快速定位集群运行的非常使命? 当监控发出集群中 Pending 的使命太多时,用户反馈使命大面积耽误时,怎样快速找到题目基础缘故起因? 当用户申请计较资源时,到底应该给他们分派几多资源?当用户申请进步使命优先级时怎样用数据措辞,明晰优先级到底应该调到几多?当用户尽管上线不管下线使命时,我们怎样定位哪些使命是不再必要的? 尚有,怎样通过及时展示各 BU 计较资源耗损,指定 BU 中各用户计较资源耗损,占 BU 资源比例。 以及怎样从汗青数据中说明各 BU 使命数,资源行使比例,BU 内部各用户的资源耗损,各使命的资源耗损等。 以下示例展示一些 Grace 产出数据图表,有关 BU、用户、使命级此外数据不利便展示。 监控行列 从下图可以利便的看到各行列最大最小资源,当前已用资源,当前运利用命数,Pending 使命数,以及资源行使比例等,还可以看到这些数据的汗青趋势。 各行列使命环境 行列资源行使趋势 使命监控 可以查察指定行列中运行中使命的使命范例,开始时刻,运行时长,耗损当前行列资源比例,以及耗损当前 BU 资源比例等。 可快速定位计较资源耗损多而且运行时刻长的使命,快速找到行列阻塞缘故起因。 指定行列使命环境 监控主机失败率 可以监控集群全部主机上的 Task 执行失败率。已有监控系统会对主机的 CPU,磁盘,内存,收集等硬件状况举办监控。 这些硬件妨碍最直观的示意就是分派在这些有题目的主机上的使命执行迟钝可能执行失败。 运行中的使命是最迅速的回响,一旦检测到某主机失败率过高,可触发快速自动下线保障营业正常执行。后续可以团结硬件监控定位主机非常缘故起因。 主机失败率监控 使命机能说明 用户可自助举办使命机能说明,如下图: 使命机能说明 而且可以按照非常项凭证以下提议自助调解,如下图: 使命自助优化方案 使命失败缘故起因说明 对付失败的使命,用户也可以凭证以下要领快速从调治体系查察失败缘故起因,以及对应的办理步伐,饿了么大数据团队会按期网络各类典范报错信息,更新维护自助说明常识库。 失败缘故起因自助说明 除此之外,我们还可以及时监控每个使命的计较资源耗损 GB Hours,总的读入写出数据量,Shuffle 数据量等,以及运行中使命的 HDFS 读写数据量,HDFS 操纵数等。 当呈现集群计较资源不敷时,可快速定位耗损计较资源多的使命。当监控呈现 HDFS 集群发抖,读写超时等非常状况时,也可通过这些数据快速定位到非常使命。 基于这些数据还可以按照各行列使命量,使命运行资源耗损时刻段漫衍,公道优化各行列资源分派比例。 按照这些使命运行状况数据成立使命画像,监控使命资源耗损趋势,定位使命是否非常。再团结使命产出数据的会见热度,还可以反馈给调治体系动态调解使命优先级等。 Grace 架构 上述示例中行使到的数据都是通过 Grace 网络的。Grace 是饿了么大数据团队开拓的应用,首要用于监控说明线上 MR/Spark 使命运行数据,监控运行中行列及使命明细及汇总数据。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |