SRE与AIOps-2023深圳_QECon全球软件质量效能大会

8折优惠售票中

团购享更多优惠

深圳站 · 5月12-13日

北京站 · 7月28-29日

上海站 · 9月22-23日

优惠倒计时

专场：SRE与AIOps

随着云计算、云原生、大数据与AI 等各种技术的蓬勃发展，SRE 所面临的机遇与挑战也是在不断发生变化。但运维的本质核心其实一直以来并没有改变，其主体还是围绕线上生产系统的质量（稳定性）、成本、效率、安全来去建设。结合新技术的发展方向，SRE 将传统运维从脚本、工具、平台逐步转向面向云原生（DevOps）、数据化（DataOps）、智能化（AIOps）、FinOps 等方向去迭代演进，从而通过更具优势的技术手段来解决运维领域所面临的各种挑战与问题。

专场出品人：刘明

火山引擎 SRE 平台研发负责人

2020年加入字节跳动，负责火山引擎云基础数智化运维平台研发方向。10年+ 头部互联网公司运维领域从业经验，长期专注于数智化运维、云原生、DevOps、公共云等方向的平台工具建设。加入字节跳动后，主导了存储组件的云原生化改造上量以及基础组件统一数智化运维平台建设等。

王博

阿里云技术专家

曾担任百度智能运维项目负责人、百度Argus报警平台负责人，现负责阿里专有云应用监控及事件中心负责人，同时负责阿里公有云及专有云监控的智能化工作

擅长领域：智能运维算法方向，监控报警系统等

待定

如何设计可落地的智能运维算法

智能运维从14年就开始被广泛提及，各种智能运维算法层出不穷，但实际上能被可靠落地的场景和算法并不多，为什么学术界的算法不能直接生搬硬套，究竟是什么原因影响了智能运维算法的落地，具体到异常检测、故障诊断这些常见领域我们应该如何设计一个可落地的算法是我一直在研究的课题。本次演讲，我将详细介绍智能运维算法在落地过程中的问题和困难，并会详细介绍面向场景的算法设计思路，最后会与大家分享异常检测和故障诊断两个具体场景的算法设计细节。

1. 智能运维落地之殇
a. 算法落地过程的痛点问题
b. 面向场景的算法设计思路
2. 异常检测场景
a. 业界常见算法与落地之间的鸿沟
b. 面向场景的算法设计思路
c. 流量场景的算法设计
d. 成功率场景的算法设计
3. 故障诊断场景
a. 通过具体案例分析落地的难点
b. 问题梳理和分析
c. 故障智能定界和辅助诊断框架
d. 业务漏斗分析模型
e. 应用链路分析模型
4. 总结与展望

讲解什么场景适合被算法解决，介绍智能运维应该如何做，重点分享面向场景的异常检测、故障诊断等算法设计思路。

内容大纲

听众收益

兰钢临

快手大数据SRE服务保障团队负责人

快手大数据SRE服务保障团队负责人，从15年在360公司到18年加入快手至今，一直从事大数据SRE相关工作。目前主要负责快手大数据和云存储相关服务的保障工作，保障超大规模集群的稳定与高效运行，以及8类引擎服务迭代效率。

待定

快手大数据SRE技术运营体系建设之路

快手的大数据服务规模从17年-22年经历了爆发式的增长，为了支持增长，一定程度上牺牲了标准、规范和可运维性，使得集群的线上运行环境变的过于复杂和不可控，最终逐步体现出越来越多的稳定性问题和运维管理效率问题。在这个背景下，通过夯实大数据技术运营体系基础，将底层复杂的环境抽象化、标准化、简单化，并在此基础上完善上层大数据运营场景能力，提高整体的稳定性和效率保障能力。

1. 介绍大数据规模和部署的演进
2. 介绍当前面临的痛点和挑战
3. 技术运营体系的整体介绍
4. 技术运营体系分模块介绍，并结合实际项目展示具体的建设思路和收益
5. 技术运营体系建设的整体收益
6. 未来规划

了解大数据集群从中小规模发展到超大规模过程中会面临的一些不可避免的问题和最终带来的痛点，超大规模集群运维问题的解决思路，经验和收益。

内容大纲

听众收益

刘昊

bilibili SRE体系负责人

17年加入B站，先后负责运维研发、数据中间团队，目前为B站SRE体系负责人。主要负责和聚焦B站的SRE体系化、产品化建设。围绕稳定性的数字化运营、运维元数据中台、运维效能平台和SRE人员转型培训，保障B站各SRE业务团队和主站/直播/电商/游戏等核心事业部业务的稳定性持续高水位。

待定

SRE效能体系建设的实践与反思

在互联网各个大厂降本增效的大背景下，SRE团队既要保障业务的高质量，又要提升团队效能，在组织内部价值点更明确，用有限的人力支撑和维持业务的稳定快速迭代。本议题通过从最困扰SRE工作的琐事出发，引出B站SRE效能体系的构成和相关实践，分享如何渐进式的落地SRE效能体系，并通过实践案例和数据介绍几个核心效能平台的落地演进和反思。

1. 从琐事出发
2. SRE效能面临的痛点与问题
3. SRE效能体系的蓝图与路径规划
4. B站SRE效能体系化建设的实践
5. 开展效能体系建设的反思与总结

- 了解如何解决对运维/SRE工作干扰最大的琐事思路和实践方法
- 了解SRE效能体系化，对SRE团队、基础架构团队和业务团队的收益
- 了解渐进式效能平台落地实践的经验，如何一步步搭建完善的SRE效能体系，解决人人、人机协同的诸多问题。

内容大纲

听众收益

童琳

华为云 SRE高级专家

华为云计算SRE高级专家，目前负责SRE专家系统规划和设计，曾负责华为云网络运维平台规划，带领研发团队进行产品落地，在网络监控、故障自愈、变更自动化等领域有丰富的实践经验。毕业后曾就职于阿里巴巴和腾讯，从事网络运维平台开发和规划工作。

擅长领域：SRE，网络技术，架构设计

待定

云网络监控和故障定界

云上应用对网络的极致性能诉求，网络服务多样化，无处不在的网络互联对网络监控领域挑战巨大，本主题聚焦如何针对复杂的云网络环境进行全面监控，如何结合网络拓扑进行故障定界和自愈，提升云服务网络的稳定性。

如何进行故障路径还原，如何实现黑盒精确故障定界；如何实现黑盒监控的100%自动化覆盖；如何进行复杂故障自愈能力；

1. 完备的黑盒监控能力能解决不确定性问题的发现，黑盒监控挑战之一及时如何实现100%覆盖；
2. 故障定界如何利用流量路径还原来快速过滤消息，提升问题定界效率。

内容大纲

听众收益

关注QECon公众号

议题投稿

Speaker@qecon.net

票务联系

15901265561 小娟

媒体合作

13516196409 皮皮

商务合作

15122643988 木子