为什么要有SRE

sre document

为什么要有SRE

Google针对SRE的要求是Automate Everything。这个就是跟传统运维的区别。传统运维很多东西更是手敲的。

当然核心还是为了保证网站的可用性，当然现在也是扩展到整个互联网产品的前端和后端系统，而不仅仅是网站。

可用性目标一般想法肯定是100％，但是我们重试这行的知道这是不可能，我们看现在aws的ec2的SLA就是99.5％，而cloudfront也就是99.％。

很多公司的高层和研发同学并不知道，所以SRE也需要给大家普及这些基础知识。同时SRE需要在这些SLA条件的情况下，如何去提升自己产品的SLA,努力向100%靠近。

因为SLA的下降会导致极大的损失：

当然不是就这些，比如GCP，Azure，腾讯云这些都有。

从笔者实际发生过的案例来说，由于云厂商的SLA问题，导致我们业务整体迁移的就有菊花厂，QingCloud这些。

菊花厂是由于数据库的问题，升级规格，然后数据库宕机2个多小时完全不可用。其中花了接近2个小时找到菊花厂负责数据库的人。

QingCloud是由于雷击的问题，导致几次广州整个az不可用。

因此SRE的价值就是在现有资源保障的情况下，如何最大化的提升SLA。这里有些是Google提倡的Automate Everything，有些还是需要一步步实践出来的。