Production Issues

Feb 13, 2021 • ferryzhou

最近又碰到几个production issues

几个教训

有些东西也不是每次都发生。偶尔发生一次以后，一定需要重视，找明原因，并把root cause彻底解决掉。
系统冗余非常重要。存储需要冗余。运行系统也需要冗余。平时没啥用，关键时能救你命。
尽量每天都要刷一遍系统运行状态。中间环节出的错，会慢慢蔓延到后面的环节。到最后才发现，可能问题已经出现很久，补救起来要费劲很多。
任何fix或者开发都需要verify。看看程序是不是正常运行完。下游是不是恢复正常。

cron and dashboard