万字总结:腾讯会议后台告警治理实践——如何才能避免“事后诸葛亮”
出处:
mp.weixin.qq.com
告警治理永远是后台架构中绕不开的话题,几乎可以认为告警是否治理得好,决定能否做好后台的服务质量。现网运作过程中,时而都会面临现网质量的问题,可能是大范围的故障,也可能是一个发布有 Bug 导致某一小群用户某个功能功能不可用。让人尴尬的是,事后复盘之时,总会发现优化措施里总是有告警优化措施的身影。而告警措施无论怎么补全,似乎永远补不完。 本文将结合笔者最近一年团队的成功实战经验,从如何结合错误码设计开始,再到统一告警策略、工具建设乃至团队值班制度管理等,介绍腾讯会议部分模块告警治理经验。 本文全文1.4w字,阅读本文后,后台团队质量负责人将能回答出以下三个问题:怎么样让告警是覆盖有效的,且能真实告警是故障(这个通常不难,一旦有大范围问题,告警通常是泛滥的),还能包含一些功能性的质量/bug问题,在大面积用户反馈之前介入。在告警有效的前提下,如何做到后台服务的告警不会一直处于轰炸状态,导致团队麻木。如何推动团队真正长期有效地对告警所反映的问题做到闭环解决。