Visibility, Frequency
这个礼拜oncall
follow自己之前给团队设置的rule
就是每天send一个healthiness summary
发现虽然多了一点儿负担
但是非常有效
以前每个礼拜一次oncall meeting。整个团队go through上一个礼拜的各种问题
经常内容很多,也有很多问题stale了。或者有些问题前期被忽视了。导致violate slo。
现在每天一update,相当于每天一个oncall meeting
问题可以及早triage并让相关model owner感受到紧迫性
无论是oncall和老板们都能对全局有更好的把控性
作为oncall来说,也不用再写很长的weekly summary,焦虑反而也更小了一些。因为每天都在解决问题。
另外,团队之前用colab开发的status monitoring dashboard非常有效。每次update就截一个图。很好的records。不仅仅是把之前的手工程序化,而且scalable也increased visibility。
最后irm工具也用上瘾了。