SRE チームの評価に役立つレベル別チェック リスト

58日目

これは役立ちそう。 cloudplatform-jp.googleblog.com

実は原文を先に読んでいたが、意味がよくわからなかった(日本語に訳しづらかった)ところがあったので備忘録として残しておこう

初級者チーム

  • リリース プロセス、サービスのセットアップとティアダウン(そして可能ならフェイルオーバー)のためのマニュアルを整備していること
    • 「ティアダウン」ってなんだろう?サービス終了?
  • SRE がプロジェクトの仕事を立案、実施していること(開発者の支持を必要としない運用負担軽減の取り組みなど、開発者から直接見えない部分でもかまいません)
    • project workはそのままプロジェクトの仕事でいいのか
  • SRE の統括責任者(つまり CTO)が審査、承認した SRE チーム憲章
    • 憲章とか日本語でもよくわからない。よく確認しておく

中級者チーム

  • 全体として少量の苦役があること(負担の軽いオンコール以上のものが 50 % 未満)。信頼性を考慮に入れた構成変更アプローチをチームが確立していること。SRE が単にオンコールの範囲を広げたりサービスを増やしたりするだけでなく、自らの影響力を大きくするためのプランを確立していること
    • よく確認する

上級者チーム

  • 少なくとも SRE チーム内の数名が、単なる運用や障害対策の枠組みを越えて、ビジネスの何らかの側面に大きなプラスの影響を与えていること
    • なるほど
  • ほとんどのサービス アラートが SLO バーン レートに基づいていること
    • バーンレートの意味がよくわからなかった