飞机的涡轮机发明者帕布斯·海恩提出了一个在航空界关于安全飞行的法则,近年来,越来越多的互联网行业开始引用这个法则,这是因为多数互联网企业从事对海量用户产品的韵味和运营,对线上产品的可用性要求较高,对宕机时间比较敏感。可用性要求高则“5个9”,低则“3个9”的指标,让互联网产品的重要性不亚于一个海上油井,如果高频交易系统等宕机几分钟,那么给互联网企业带来的损失可能高达数亿美元。
海恩法则的定义如下:
每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆及1000起事故隐患。
再好的技术、再完美的规章,在实际操作层面也无法取待人自身的素质和责任心。
根据海恩法则,一起重大事故发生后,我们在处理事故和解决问题的同时,还要及时对同类问题的“事故征兆”和“事故苗头”进行排查处理,以防止类似问题的重复发生,把问题解决在萌芽状态,这完全可以作为互联网企业线上应急的指导思想。在线上应急的过程中,不但要定位和解决问题,还要发现问题的根源,并找到发生事故之前的各种征兆,对征兆进行排查和分析,并做相应的报警处理。
另外,根据海恩法则强调的第2点,在互联网的巨大生产线上,虽然运维团队已经为开发人员建立了完善的应急和监控基础设施,单完善、通用的平台都是为80%的通用需求服务的,对于20%的特殊需要和问题仍然需要专家来解决,因此,作为互联网架构师或者技术专家,我们都要对自己的线上服务了如指掌,并需要先进和有效的工具来支撑。
因篇幅问题不能全部显示,请点此查看更多更全内容