云计算开源产业联盟可信云工作组组长;从事云计算领域产业发展、关键技术研究、标准制定等相关工作,牵头撰写云计算行业20余个标准,目前主要在云原生领域做相关研究,主导国内首个云原生标准体系建设,牵头编制云原生行业发展白皮书等工作。
专场出品人:陈屹力  
中国信息通信研究院云大所副总工 云原生产业联盟秘书长

专场:云原生质量  

我们现在已经处在云原生时代,将软件体系构建在云计算平台之上,系统各个环节能够实现无缝集成,整个平台更具有弹性、可靠性,更能支持一些大规模、高并发的应用,更好地支持业务中台、数据中台。那我们看看一些大厂在云可信、持续交付、容器化管理、Serverless、ServiceMesh多环境治理等各个方面又哪些优秀实践?
1. 稳定性挑战部分基于贝壳产业互联网业务的特点,如房产交易周期长、链路长、标准化缺失等,结合目前的微服务拆分和架构云化的现状,针对频发的深水故障如:连接打满、流控异常、中间件异常、复杂链路异常等场景,质量团队开展了专项治理。
2. 贝壳混沌工程设计落地部分主要介绍结合业界混沌工程的实践,设计实现了基于自身业务特点的混沌平台KeChaos,基于故障的画像和分析,实现了系统层、中间件层、应用层的故障场景模拟、异常注入、主动和自动的故障场景构造等能力,流量的复制和构造能力,打通公司监控能力,实现服务稳定和状态判断和基于稳态的爆炸半径的控制。
3. 混沌工程实践和改进部分主要介绍贝壳质量团队从以故障注入、异常测试、链路压测为抓手,联合稳定性要求高的业务,共同推进线上和线下的故障演练、异常测试,发现和定位业务链路的脆弱点,推动全链路薄弱环节加固,保证了业务故障的持续收敛。
4. 规划和展望部分主要介绍KeChaos的后续技术规划,包括:故障自动止损和识别的探索、基于稳态能力的注入及演练自动化等,并通过运营手段,进行攻防日、游戏日、故障注入红黑榜等活动,提升产研整体质量意识。
1. 复杂系统和长业务链路下,反脆弱有哪些具体切入点
2. 基于产业互联网的业务特点,贝壳的稳态标准和爆炸半径控制的设计思路和具体实践
4. 线上出现问题时,混沌工程如何助力快速止损,避免故障扩大化,系统问题的优化的有效性验证中,混沌工程起到的作用
5. 混沌工程如何助力架构师、研发人员提升系统稳定性及高可用性
6. 贝壳的混沌工是如何运营的,如何助力产研整体质量意识的提升
赵宁
贝壳找房  资深工程师
贝壳找房基础架构、人工智能领域资深工程师,贝壳混沌工程、性能平台负责人,在服务端自动化、性能、混沌工程能领域有较深研究和实践,搭建贝壳服务端稳定性及全链路质量保证体系,负责过大型中后台项目的质量保证以及工具平台开发工作。
3)擅长领域:
服务端稳定性质量建设,稳定性测试、故障注入、异常测试、性能测试、服务端自动化等
待定
待定
KeChaos-贝壳质量混沌工程实践
随着用户量的增长和业务规模的扩大,系统复杂度持续上升,系统链路的任何节点随时可能爆发故障,尤其在签约、交易、支付、广告等服务节点,用户几乎不能容忍任何系统错误。作为系统全链路的质量的守护者,如何通过技术手段,在故障前,尽可能发现链路中的薄弱环节并进行加固,故障中,快速止损收敛故障影响,故障后确保改进及预案的有效性,进而通过技术提升整个产研团队的质量意识,贝壳质量团队在故障治理上,有一些基于产业互联网经验的探索,并有相应的、持续迭代的功能和线上化能力的落地,希望就这些问题,跟大家进行深入的探讨。
内容大纲
听众收益
1. 背景综述
 - 业界云原生化和系统稳定性保障技术
 - 百度搜索的云原生进程和稳定性保障 
2. 传统质量保障的挑战:云原生转型下传统质量保障系统面试的问题和挑战 
3. 百度搜索云原生架构下质量保障和系统稳定性提升方案
 - 超大规模微服务架构的质量保障体系
 - 传统+创新的技术手段保障全混布下服务质量,全维度保障云原生改造下的搜索高可用
 - 引入混沌工程并全面实施,探测发现并闭环稳定性问题 - 百度搜索整体质量保障体系及测试效率提升 
4. 小结
- 了解复杂分布式架构在微服务化及云原生转型过程中,测试手段及测试技术变革
- 了解超大规模云原生架构测试和质量保障实践经验,服务全混布下性能测试和系统测试方法
- 了解复杂系统如何引入混沌工程并有效实施,如何保障和提升系统稳定性
李阳
百度 资深测试开发工程师
2016年硕士毕业加入百度,负责百度 搜索架构测试开发工作。现负责百度 搜索在线架构及搜索稳定性方向质量 保障和建设工作。 擅长领域:熟悉服务端系统及稳定性 测试,擅长微服务架构质量保障、云原 生及混沌工程相关技术领域。
待定
待定
大规模搜索引擎云原生质量保障及混沌工程实践
随着百度搜索大规模分布式系统微服务化及云原生转型的进程,云原生技术带来的各项优势逐渐体现,同时微服务拆分、服务全混布 等改造也使大规模分布式系统的复杂度和不可预测性等问题更加明显,对传统测试方法带来新的挑战。百度搜索架构及稳定性测试 团队在过去一年多内,经历了架构全面的微服务化及云原生转型,团队测试技术和测试方法也随之演进革新。建立了云原生测试准入 标准,从云原生改造质量保障、架构云原生能力防退化机制、混沌工程例行巡检云原生架构等纬度保障服务稳定性和高可用。这里将 对我们在云原生质量保障及混沌工程方面的实践做分享。
内容大纲
听众收益
1. 兼顾交付效率和质量保障的情况下,建立高效的云端微服务交付流程。
从业务价值流出发,分为新需求交付和旧需求迭代,分别采用不同的服务交付流程。
2. 测试能力工具链研发
用例管理平台:
功能自动化测试平台:
用例管理平台和功能自动化测试平台联动,自动翻译描述性测试用例为自动化测试脚本,自动化测试完成后,回填测试结果;
性能测试平台:
使用gatling+jmeter建设压测平台,开发用于thrift/swift/lib库压测的gatling插件,提供压测任务代码依赖冲突的解决方案;
流量录制和日志分析:
分别为功能和性能提供测试数据;
BVT回归测试平台:
线上监控平台:
测试效能度量平台:
自动绘制“人员-任务-进度-排期”相关联的拓扑图,提升团队管理效率;
提炼提测延期、交付时长、阻塞时长、阻塞原因等效能指标,交付时长从23天减少到11天;
sonarQube工具的搭建和使用:
3. 代码质量测试
使用sonarQube工具通过静态代码分析发现 代码逻辑设计和编码缺陷
通过UT测试测试单元内部的数据结构、逻辑控制、异常处理等
根据不同的技术栈构建docker镜像,部署CI runner, 通过gitlab CI-Pipeline 在merge request 阶段trigger 静态代码检查和UT测试,并设置质量红线
在几年的努力下,形成了一个从代码提交到功能交付的一套完整的微服务质量保障体系
平台的设计理念和新技术、新工具的使用,整个体系和流程建设都可以让同行借鉴或者直接采用
薛淑超
蔚来 软件质量工程部 资深工程师
在小米工作4年多,从小爱同学开始研发到现在,一直致力于小爱同学的云端服务质量保障工作。经过这几年的努力和实践,逐渐形成了一套行之有效的云端服务保障体系,希望可以分享给大家。
待定
待定
云端微服务质量保障解决方案
400+的云端微服务,怎么进行质量保障
如果提升测试效率,降低测试技术的学习复杂度
如果提升测试管理效率
内容大纲
听众收益
服务关系的契约化设计和自动化,基于契约和流水线的自动生成文档、接口代码、接口参数用例和契约验证,整个开发团队的人均交付效率提升40%;提供给开发为测试主体的测试方法和工具,菱形测试策略替代传统的金字塔测试模型,聚焦于契约的接口测试,开发者测试和集成效率提升50%;传统的版本发布变革为基于特性粒度的持续发布及其反馈,构建前端、服务到数据全链路的特性开关及其监控能力,需求交付周期提升50%;
微服务架构的一定规模的产品团队,如何解耦服务依赖,解决不同服务并行开发时的一致性和集成效率问题,相关工具、方法和实践已经规模应用,并取得良好效果;产品、研发和运维三条价值线的服务度量及持续反馈,协助三条线的持续改进和引领组织的效能变革;
赵玉锡
华为终端电商平台部 基础设施和工程效能架构师
15年软件设计和多种语言一线开发经验,在华为一直参与到核心服务、前端和工具等编码,任职软件专家;2年半消费者全场景AI解决方案设计与技术规划,负责小艺、HiCar和鸿蒙的分布式AI等多个重要AI解决方案设计;2年华为电商基础设施架构师,负责工程效能及基础框架与平台的规划、设计与核心开发;

擅长领域:擅长服务端和工具的设计开发,前端也有一定开发经验,在华为一直参与重点项目的开发攻关,熟练掌握C++、Java、Python、Go和JavaScript语言;在软件架构设计、并行、分布式、云原生、软件性能和CI/CD/IAC工具等方面,积累了丰富的软件设计与开发经验;
待定
待定
华为电商服务治理探索与实践
服务依赖关系及其复杂度的有效管理,微服务架构下,服务的依赖及复杂度若没有有效管控,新功能将会越来越多地联动多个服务开发和集成测试,直接导致效率的下降,如何防范体系性地腐朽并有效管控,对于快速发展期的微服务架构不得不考虑的;设计、开发、测试与部署的一致性保证及高效衔接,通常各个团队中传递无统一语言,从服务设计到服务开发,到用例开发,设计的变更传递效率低效又容易遗漏;
内容大纲
听众收益
CBU在探寻稳定性建设的过程中,使用云原生的弹性能力在旧有技术体系上构建起自己的弹性交付平台,在交付、稳定性、以及资源使用效率的方面获得比较突出的的结果(3000c的资资源池月度提供1800次自动交付,7000台次的容器使用,资源交付效率提升40%,故障恢复时常从平均30m压缩到10m以内)。
对云原生落地场景的选择和落地寻找道路的同路人。

定果
阿里巴巴 技术专家
一直从事运维工作,后向SRE转变。当前主要负责阿里巴巴国内站的安全生产工作。

擅长领域:SRE,成本控制,云原生提效等

待定
待定
CBU(阿里巴巴国内站)云原生弹性交付之路
将云原生所提供的体系、工具、模块等部分能力兼容到老框架上,建设弹性交付,提升稳定性。用新技术带动老业务,让旧有体系也能享受云原生的福利,并大幅提效。
内容大纲
听众收益