SRE チームの評価に役立つレベル別チェック リスト
58日目
これは役立ちそう。 cloudplatform-jp.googleblog.com
実は原文を先に読んでいたが、意味がよくわからなかった(日本語に訳しづらかった)ところがあったので備忘録として残しておこう
初級者チーム
- リリース プロセス、サービスのセットアップとティアダウン(そして可能ならフェイルオーバー)のためのマニュアルを整備していること
- 「ティアダウン」ってなんだろう?サービス終了?
- SRE がプロジェクトの仕事を立案、実施していること(開発者の支持を必要としない運用負担軽減の取り組みなど、開発者から直接見えない部分でもかまいません)
- project workはそのままプロジェクトの仕事でいいのか
- SRE の統括責任者(つまり CTO)が審査、承認した SRE チーム憲章
- 憲章とか日本語でもよくわからない。よく確認しておく
中級者チーム
- 全体として少量の苦役があること(負担の軽いオンコール以上のものが 50 % 未満)。信頼性を考慮に入れた構成変更アプローチをチームが確立していること。SRE が単にオンコールの範囲を広げたりサービスを増やしたりするだけでなく、自らの影響力を大きくするためのプランを確立していること
- よく確認する
上級者チーム
- 少なくとも SRE チーム内の数名が、単なる運用や障害対策の枠組みを越えて、ビジネスの何らかの側面に大きなプラスの影響を与えていること
- なるほど
- ほとんどのサービス アラートが SLO バーン レートに基づいていること
- バーンレートの意味がよくわからなかった