这个礼拜oncall

follow自己之前给团队设置的rule

就是每天send一个healthiness summary

发现虽然多了一点儿负担

但是非常有效

以前每个礼拜一次oncall meeting。整个团队go through上一个礼拜的各种问题

经常内容很多,也有很多问题stale了。或者有些问题前期被忽视了。导致violate slo。

现在每天一update,相当于每天一个oncall meeting

问题可以及早triage并让相关model owner感受到紧迫性

无论是oncall和老板们都能对全局有更好的把控性

作为oncall来说,也不用再写很长的weekly summary,焦虑反而也更小了一些。因为每天都在解决问题。

另外,团队之前用colab开发的status monitoring dashboard非常有效。每次update就截一个图。很好的records。不仅仅是把之前的手工程序化,而且scalable也increased visibility。

最后irm工具也用上瘾了。


<
Previous Post
Thinking in teams
>
Next Post
进步和复用