为什么要有SRE

为什么要有SRE

Google针对SRE的要求是Automate Everything。这个就是跟传统运维的区别。传统运维很多东西更是手敲的。

当然核心还是为了保证网站的可用性,当然现在也是扩展到整个互联网产品的前端和后端系统,而不仅仅是网站。

可用性目标一般想法肯定是100%,但是我们重试这行的知道这是不可能,我们看现在aws的ec2的SLA就是99.5%,而cloudfront也就是99.%。

很多公司的高层和研发同学并不知道,所以SRE也需要给大家普及这些基础知识。同时SRE需要在这些SLA条件的情况下,如何去提升自己产品的SLA,努力向100%靠近。

因为SLA的下降会导致极大的损失:

  1. 2025-10-20 aws 15小时故障,导致数十亿美元的损失。
  2. 2023-11-12 阿里云 auth服务出故障,时间为185.76分钟,导致几亿元的赔偿,以及无法弥补的商誉损失。

当然不是就这些,比如GCP,Azure,腾讯云这些都有。

从笔者实际发生过的案例来说,由于云厂商的SLA问题,导致我们业务整体迁移的就有菊花厂,QingCloud这些。

菊花厂是由于数据库的问题,升级规格,然后数据库宕机2个多小时完全不可用。其中花了接近2个小时找到菊花厂负责数据库的人。

QingCloud是由于雷击的问题,导致几次广州整个az不可用。

因此SRE的价值就是在现有资源保障的情况下,如何最大化的提升SLA。这里有些是Google提倡的Automate Everything,有些还是需要一步步实践出来的。