曾担任百度智能运维项目负责人、百度Argus报警平台负责人,现负责阿里专有云应用监控及事件中心负责人,同时负责阿里公有云及专有云监控的智能化工作
擅长领域:智能运维算法方向,监控报警系统等
智能运维从14年就开始被广泛提及,各种智能运维算法层出不穷,但实际上能被可靠落地的场景和算法并不多,为什么学术界的算法不能直接生搬硬套,究竟是什么原因影响了智能运维算法的落地,具体到异常检测、故障诊断这些常见领域我们应该如何设计一个可落地的算法是我一直在研究的课题。本次演讲,我将详细介绍智能运维算法在落地过程中的问题和困难,并会详细介绍面向场景的算法设计思路,最后会与大家分享异常检测和故障诊断两个具体场景的算法设计细节。
1. 智能运维落地之殇
a. 算法落地过程的痛点问题
b. 面向场景的算法设计思路
2. 异常检测场景
a. 业界常见算法与落地之间的鸿沟
b. 面向场景的算法设计思路
c. 流量场景的算法设计
d. 成功率场景的算法设计
3. 故障诊断场景
a. 通过具体案例分析落地的难点
b. 问题梳理和分析
c. 故障智能定界和辅助诊断框架
d. 业务漏斗分析模型
e. 应用链路分析模型
4. 总结与展望
讲解什么场景适合被算法解决,介绍智能运维应该如何做,重点分享面向场景的异常检测、故障诊断等算法设计思路。