最近工作邮箱被email alerts给淹没了

上游的数据因为资源的缘故慢了两三天

然后下游就像雪崩一样pipeline全fail,alerts狂发

感觉这样不是个事儿

主要是alerts收得多了以后,以后就麻木了,直接选择忽略不计了

100个alerts,可能仅仅是因为一个原因引起的

感觉上下游没有必要每个job fail了都发alerts。或者,可以发alerts到不重要的邮箱。

另外,job fail本身也许不应当由人来处理,应当有一个程序专门的来做修复或者善后工作

这个程序也负责发送真正的事故原因,并且是有效的那种

这个程序可以算是负责检测系统健康状态。检测问题,汇总,报告,并试图修复。


<
Previous Post
dfrobot maqueen plus line tracking tutorial
>
Next Post
沟通