专场出品人:亚松
阿里巴巴 SRE及安全生产业务负责人
SRE及安全生产业务负责人, 2014年加入阿里,先后担任过Aone研发团队和电商运维团队的负责人,目前是集团SRE及安全生产团队的负责人。亚松是集团DevOps转型的主要实施者,也是集团规模化运维的开拓者与实践者,在集团电商业务的全局性架构演进方面一直发挥着关键作用。
专场:运维效能实践 
运维核心职责是高效低成本保持线上服务可用,随着云逐渐成为新的基础设施,云原生架构逐渐成为主流,技术需低碳环保,再加宏观环境承压,运维体系将面临新的问题与变革。本专题将重点讨论如何上好云,基于混合云的运维效率提升。如何建设 serverless 基础设施,赋能研发。如何用好云,构建面向未来的运维体系,提升基础设施运行效率,降低资源成本,助力企业开源节流。如何通过技术降低碳排放,提升企业社会责任感
基础设施即代码(Infrastructure as Code,简称IaC)是一种使用新的技术来构建和管理动态基础设施的方式。它把基础设施、工具和服务以及对基础设施的管理本身作为一个软件系统,采纳软件工程实践以结构化的安全的方式来管理对系统的变更。通过对基础设施软硬件环境的定义,自动化部署、配置、更新,提高基础设施管理的敏捷性,一致性,降低生产环境变更风险,更有效的利用资源。
本次议题结合Terraform开源项目和作者所在产品线的实践,实现环境的代码化定义和变更过程的代码化定义以及定义文件的版本化管理。通过实践IaC的相关能力,实现部署和变更串联的自动化和无人值守变更,实现研发和生产环境的部署和变更过程的一致性、可重复、可追溯,避免出现雪花服务器,并通过自服务的方式置备通用定义文件中定义的环境和服务实例,按需实现分钟级的创建、扩容和销毁一个环境,实现资源成本的降低。
主要从如下几个方面介绍IaC实践的过程:
1. 当前产品线研发测试环境5万+虚拟机,现网主机20W+,现网变更每年12万次以上,变更周期10天以上,单服务需要维护全球站点的几千个配置项,研发环境管理以及现网环境变更的痛点较多;
2.结合业界流行的Terraform开源项目,从零构建了适配产品线开发和运维模式的IaC解决方案,实现了分钟级研发环境快速申请和释放,降低了测试环境资源的成本,实现全球所有站点配置项统一代码化管理,通过IaC实现无人值守变更,实现变更周期减少40%以上,SRE人均维护的现网主机数量提升20%。
随着业务微服务数量的增加以及生产环境变更次数的增加,在实践DevOps的过程中,部署变更的痛点越来越明显,例如各个工具系统提供了自动化的能力,但仍需要到不同系统上去操作,工具之间的自动化无法实现串联。研发环境的申请和释放成本较高,导致研发人员申请了测试环境的资源,倾向于不释放,导致资源利用率较低。运维SRE的手动操作仍然较多,开发人员和SRE之间通过文档或者口头的方式传递要变更的内容,沟通成本很高,且经验无法固化和传递。由于仍然存在较多的手动操作,对于生产环境的变更内容无法进行充分的审计和回溯。针对如上痛点问题,通过人管代码,代码管理系统的理念,结合Terraform开源项目,进行了基础设施即代码的实践。
了解结合业务实践实施IaC的过程,对于期望提升变更部署效率以及期望实施IaC能力的同行有一定的借鉴意义。
在华为任职8年,产品线DevOps效能部IaC技术总监,具备多年的开发,测试,运维,效能的经验,最近两年负责产品线基础设施即代码(IaC)解决方案的整体设计和推广落地的工作,从零参与产品线IaC能力的构建,结合业界实践针对产品特点的进行适配,推广落地以及解决方案的持续演进。
李亭德
华为  DevOps效能高级工程师
待定
待定
通过IaC实现DevOps的部署变更效率提升
内容大纲
听众收益
成熟度模型业界常用于项目管理、软件能力管理、测试以及自动化,我们将成熟度与测试环境治理相结合,结合字节跳动整体研发测试流程背景设计环境治理成熟度模型,通过设计和采集可用性、稳定性、安全性、研发流程、研发效率等方面的指标,综合评价业务当前环境治理的状况,并结合业务实际特定给予短板指标提升方案。

1. 业界测试环境治理的情况,测试环境使用的关键痛点分布
2. 什么是环境治理成熟度模型,构成成熟度的三大要素
3. 为什么将成熟度模型应用于线下测试环境流程推进和效率提升
4. 如何开展环境治理成熟度专项,包括模型设计、推进机制、数据牵引效果
完全与线上隔离的线下测试环境对于服务安全、数据安全有着重要意义,但在整个环境优化和治理的过程中会面临质量、效率、资源、成本等多重重挑战,环境治理团队致力于让业务团队快速、低成本拥有一套独立、稳定、数据完备的测试环境。团队将探索环境治理方案,推进环境在全公司各业务落地,并围绕环境提供完备的数据、稳定性、问题排查、性能测试等服务。

基于字节跳动测试环境治理在公司范围内的推进,重点分享如何通过成熟度模型牵引业务规范使用测试环境,在安全合规的情况下提升测试研发体验和研发效能;通过对研发流程中的过程指标和结果指标进行度量,结合环境治理成熟度模型增加业务同学和决策者对现状的了解,同时横向拉齐各业务数据,方便业务间进行结果对比、借鉴最佳实践、资源倾斜。
1. 一个全新的角度去看环境治理过程中的问题,利用测试环境治理成熟度指标及模型,更加准确科学的诊断当前研发测试流程中的问题;
2. 多维度客观指标明确业务规范推进进展也可以用于日常测试和研发流程管理中;
字节跳动产品研发和工程架构部-环境治理与容灾测试开发工程师,目前主要负责字节跳动环境治理成熟度项目,项目目标是指标度量业务测试环境使用现状,通过成熟度模型明确业务进阶短板方向并牵引提升;目前成熟度项目已经落地今日头条、抖音、TikTok、直播、小说、飞书 等业务,持续度量业务线下环境推进情况,为规范研发流程和提升研发效率提供数据及方案支撑。研究生毕业后曾就职于360搜索,负责图片搜索前后端测试、自动化、持续集成等工作;擅长领域:业务测试与质量保证,测试流程推进与运营。
沈健
字节跳动 测试开发工程师
待定
待定
成熟度模型牵引下的字节测试环境治理实践之路
内容大纲
听众收益
1. SRE岗位的核心价值
2. 回归岗位价值,如何开展SRE工作
3. 美图SRE稳定性运营实践
4. 未来展望
随着环境的变化、行业的发展、技术的更迭,运维的工作界面已经发生了巨大的变化,传统的运维思路已经难以疲于应付;我们在此践行和倡导用更主动的运营思路来统筹SRE工作,前面的问题或可以得到更好的解决。
1. 一种新的工作理念或可以借鉴:从被动运维到主动运营,贴合岗位需要输出的核心价值,用运营的思路来展开SRE工作;
2. 一种统筹SRE工作的宏观框架:回归岗位价值,理性看待技术的发展,坚定对SRE工作的信念;
2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、医美、实验室等全线产品的运维保障工作,同时参与公司日志、监控等基础设施的建设。

参与或主导过多次公司基础设施的调整、改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。
石鹏
美图   高级运维经理
待定
待定
回归岗位价值,浅谈SRE稳定性运营
内容大纲
听众收益
联系我们
票务联系(可以开发票): 小娟 15901265561(微信同号)
议题投稿: Email:Speaker@qecon.net
商务合作: 皮皮:13516196409
媒体合作: 木子:15122643988

Tips:报名成功后,会收到电子二维码,大会当天凭此现场兑换参会证;
扫码可查看往届盛况
QECon公众号