6个人如何维护上千规模的大数据集群呢？

发布时间：2018-07-10 15:52:03 所属栏目：教程来源：陈**明

导读：副标题#e# 【资讯】本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一，降低用户接入门槛;如何让用户自助分析任务异常及失败原因，以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗，监控集群状况，监控异常任务等。饿了么 BDI-大数据

　　饿了么大数据集群每天运行的 Spark&MR 任务 25W+，这些数据详细记录了每一个 Mapper/Reducer 或者 Spark 的 Task 的运行情况，如果能够充分利用，将会产生巨大的价值。即充分利用集群本身数据，数据驱动集群建设。

　　这些数据不仅可以有助于集群管理人员监控集群本身的计算资源、存储资源消耗，任务性能分析，主机运行状态。还可以帮助用户自助分析任务运行失败原因，任务运行性能分析等。

　　饿了么大数据团队开发的 Grace 项目就是在这方面的一个示例。

　　Grace 使用场景

　　你对集群任务运行状况详细数据没有明确认识的话，很容易当出现问题时陷入困境，从监控看到集群异常后将无法继续进一步快速定位问题。

　　当经常有用户找你说，我的任务为什么跑失败了?我的任务为什么跑的这么慢?我的任务能调一下优先级么?不要跟我说看日志，我看不懂。我想大家内心都是崩溃的。

　　当监控发出 NameNode 异常抖动，网络飚高，block 创建增加，block 创建延时增大等告警时，应该如何快速定位集群运行的异常任务?

　　当监控发出集群中 Pending 的任务太多时，用户反馈任务大面积延迟时，如何快速找到问题根本原因?

　　当用户申请计算资源时，到底应该给他们分配多少资源?当用户申请提高任务优先级时如何用数据说话，明确优先级到底应该调到多少?当用户只管上线不管下线任务时，我们如何定位哪些任务是不再需要的?

　　还有，如何通过实时展示各 BU 计算资源消耗，指定 BU 中各用户计算资源消耗，占 BU 资源比例。