alerts
最近工作邮箱被email alerts给淹没了
上游的数据因为资源的缘故慢了两三天
然后下游就像雪崩一样pipeline全fail,alerts狂发
感觉这样不是个事儿
主要是alerts收得多了以后,以后就麻木了,直接选择忽略不计了
100个alerts,可能仅仅是因为一个原因引起的
感觉上下游没有必要每个job fail了都发alerts。或者,可以发alerts到不重要的邮箱。
另外,job fail本身也许不应当由人来处理,应当有一个程序专门的来做修复或者善后工作
这个程序也负责发送真正的事故原因,并且是有效的那种
这个程序可以算是负责检测系统健康状态。检测问题,汇总,报告,并试图修复。