张悦 |
去哪儿网 高级运维开发工程师
2013年毕业加入去哪儿网,一直从事运维自动化平台、监控平台的开发和运维工作. 曾主导监控报警平台的改进建设和落地工作. 目前主要精力投入在智能监控方面的研究。
课程概要
背景介绍:
作为运维我们的目标是减少故障发生,保障业务安全稳定的运行. 我们当然希望能提前预测来规避故障,若无法避免的故障最好能做到及时发现和快速修复,尽可能的将人力化用自动化代替也就是我们工作的难点和挑战.
解决思路/成功要点:
从三个问题切入,如何及时发现?如何提前预测?如何快速修复?
提高报警的有效性. 多种手段比如:减少误报闪报无效告警,通过异常检测弥补静态阈值的缺失,明确告警来源和接收人提高人员效率等. 并利用大数据,构建应用拓扑关联关系,分析故障的根因,从而定位故障的根源.
成果:
误报闪报的无效告警量明显减少
应用健康度有助于预测故障的发生
通过应用拓扑关联有助于确定依赖关系,定位根因
听众收益
1.了解去哪儿监控体系
2.了解智能监控在去哪儿落地情况
3.了解故障预测在去哪儿的实践过程
张悦 |
去哪儿网 高级运维开发工程师
2013年毕业加入去哪儿网,一直从事运维自动化平台、监控平台的开发和运维工作. 曾主导监控报警平台的改进建设和落地工作. 目前主要精力投入在智能监控方面的研究。
课程概要
背景介绍:
作为运维我们的目标是减少故障发生,保障业务安全稳定的运行. 我们当然希望能提前预测来规避故障,若无法避免的故障最好能做到及时发现和快速修复,尽可能的将人力化用自动化代替也就是我们工作的难点和挑战.
解决思路/成功要点:
从三个问题切入,如何及时发现?如何提前预测?如何快速修复?
提高报警的有效性. 多种手段比如:减少误报闪报无效告警,通过异常检测弥补静态阈值的缺失,明确告警来源和接收人提高人员效率等. 并利用大数据,构建应用拓扑关联关系,分析故障的根因,从而定位故障的根源.
成果:
误报闪报的无效告警量明显减少
应用健康度有助于预测故障的发生
通过应用拓扑关联有助于确定依赖关系,定位根因
听众收益
1.了解去哪儿监控体系
2.了解智能监控在去哪儿落地情况
3.了解故障预测在去哪儿的实践过程