最近又碰到几个production issues

几个教训

  1. 有些东西也不是每次都发生。偶尔发生一次以后,一定需要重视,找明原因,并把root cause彻底解决掉。
  2. 系统冗余非常重要。存储需要冗余。运行系统也需要冗余。平时没啥用,关键时能救你命。
  3. 尽量每天都要刷一遍系统运行状态。中间环节出的错,会慢慢蔓延到后面的环节。到最后才发现,可能问题已经出现很久,补救起来要费劲很多。
  4. 任何fix或者开发都需要verify。看看程序是不是正常运行完。下游是不是恢复正常。

<
Previous Post
被动创新
>
Next Post
cron and dashboard