Production Issues Feb 13, 2021 • ferryzhou Share on: 最近又碰到几个production issues 几个教训 有些东西也不是每次都发生。偶尔发生一次以后,一定需要重视,找明原因,并把root cause彻底解决掉。 系统冗余非常重要。存储需要冗余。运行系统也需要冗余。平时没啥用,关键时能救你命。 尽量每天都要刷一遍系统运行状态。中间环节出的错,会慢慢蔓延到后面的环节。到最后才发现,可能问题已经出现很久,补救起来要费劲很多。 任何fix或者开发都需要verify。看看程序是不是正常运行完。下游是不是恢复正常。 <Previous Post被动创新 >Next Postcron and dashboard