インフラ/SRE インシデント管理 いんしでんとかんり 障害対応の流れと役割を整える運用。 #incident#operations 障害検知→初動対応→指揮官・記録係などの役割割り振り→復旧→ポストモーテム→改善まで、混乱しがちな障害対応を標準化する仕組み。コミュニケーション・意思決定の質が復旧時間を左右する。 関連用語 オンコール 障害対応のために待機する当番運用。ランブック 運用作業や障害対応の手順書。ポストモーテム 障害から学ぶための非難なき振り返り。MTTR 障害からの平均復旧時間。 ← 用語集トップへ戻る