张悦  |

去哪儿网

高级运维开发工程师

即将开始的A2M课程

去哪儿智能监控与故障预测实践

DevOps

2019-05-19 10:00--11:00

背景介绍:
作为运维我们的目标是减少故障发生,保障业务安全稳定的运行. 我们当然希望能提前预测来规避故障,若无法避免的故障最好能做到及时发现和快速修复,尽可能的将人力化用自动化代替也就是我们工作的难点和挑战.

解决思路/成功要点:
从三个问题切入,如何及时发现?如何提前预测?如何快速修复?
提高报警的有效性. 多种手段比如:减少误报闪报无效告警,通过异常检测弥补静态阈值的缺失,明确告警来源和接收人提高人员效率等. 并利用大数据,构建应用拓扑关联关系,分析故障的根因,从而定位故障的根源.

成果:
误报闪报的无效告警量明显减少
应用健康度有助于预测故障的发生
通过应用拓扑关联有助于确定依赖关系,定位根因

2013年毕业加入去哪儿网,一直从事运维自动化平台、监控平台的开发和运维工作. 曾主导监控报警平台的改进建设和落地工作. 目前主要精力投入在智能监控方面的研究。

即将开始的A2M课程

去哪儿智能监控与故障预测实践

DevOps

2019-05-19 10:00--11:00

背景介绍:
作为运维我们的目标是减少故障发生,保障业务安全稳定的运行. 我们当然希望能提前预测来规避故障,若无法避免的故障最好能做到及时发现和快速修复,尽可能的将人力化用自动化代替也就是我们工作的难点和挑战.

解决思路/成功要点:
从三个问题切入,如何及时发现?如何提前预测?如何快速修复?
提高报警的有效性. 多种手段比如:减少误报闪报无效告警,通过异常检测弥补静态阈值的缺失,明确告警来源和接收人提高人员效率等. 并利用大数据,构建应用拓扑关联关系,分析故障的根因,从而定位故障的根源.

成果:
误报闪报的无效告警量明显减少
应用健康度有助于预测故障的发生
通过应用拓扑关联有助于确定依赖关系,定位根因

详情咨询:400-8128-020
赞助合作:sissi
联系电话:130-4321-8801
邮箱:market@msup.com.cn
CopyRight © 2008-2019 Msup