SRE本の「過剰達成を避ける」という考え方が面白い

投稿日: 2018-11-21

Chubby

なかなか時間が取れない中、SRE本を読んでます。

この本で面白いなと思ったのが、p41にあるコラムです。

調べてみたところ、本当にグローバルなChubbyのサービス障害は非常にまれにしか起きなかったので、他のサービスの責任者達は、Chubbyがダウンすることはないと仮定して、 Chubbyに依存し始めていたことが分かりました。

自分も信頼性が低いものを信頼性が高いとみなして開発した結果、痛い目にあったことがあります。特に注意が必要なのはネットワークですね。

面白いのがこのあとの記述です。

任意の四半期において、本物の障害のために可用性がターゲット以下になっていなければ、意図的にシステムをダウンさせることによってコントロールされたサービスの停止が作り出されます。

これどこかで見たことあるなぁと思って調べてみたんですが、NetflixのChaos Engineeringですね。あと、調べてて気づいたのですが、AWSは計画停止が起きることを前提としてます。

いつ起きるか分からない障害に対して起きないことを祈るのではなく、あらかじめ障害は起きると仮定してシステムを組む。そのためにあえて障害を起こす。

合理的な考えだとは思いますが、やっぱり大胆だなぁと感じます。