回顾SLO
SLO的制定不是说一次性的,特别是产品初期和初次制定SLO的时候。
下面那个是书中提到的SLO决策矩阵
| SLO | 琐事 | 客户满意度 | 行动 |
|---|---|---|---|
| 达标 | 低 | 高 | 二选一(a) 放心且加速的执行发布和部署工作;(b)SRE回撤,把工作时间转移到其他更需要可靠性的服务上 |
| 达标 | 低 | 低 | 收紧SLO |
| 达标 | 高 | 高 | 如果有假阳性报警,就降低敏感度;否则就放宽SLO(或消除琐事)并且修复产品/或改善故障自动化迁移机制 |
| 达标 | 高 | 高 | 收紧SLO |
| 未达标 | 低 | 高 | 放宽SLO |
| 未达标 | 低 | 低 | 提高报警敏感度 |
| 未达标 | 高 | 高 | 放宽SLO |
| 未达标 | 高 | 低 | 消除琐事/或改善故障自动化迁移机制 |
因为最终我们的SLA是为了让最终客户满意,所以我们才需要根据客户的满意度来回归自己的SLO制定。
有时候不同客户等级相同指标的SLO也是不一样的。