最新記事公開時にプッシュ通知します
2026年2月27日


IT企業でオンライン学習サービスのSRE(Site Reliability Engineering)に従事する現役エンジニア。日々Kubernetesをはじめとするサービスのインフラを運営しながら、開発者のサポートに努める。著書に『つくって、壊して、直して学ぶ Kubernetes入門』(翔泳社)など。技術同人誌も多数手がける。趣味は漫画を読むこと、イラストを描くこと、音楽を聴くこと、そしてビール。
X:@_a0i
Instagram:@aoi_tofu
転職でとある会社のSREチームに加わったチンチラ・金子と、メンター役のコアラ・小山。
ふたりの愉快なやり取りを、現役SREエンジニアのあおいさん(@_a0i)が4コマ漫画に描きます。
これまでの内容はこちらからご覧いただけます。最新話はレバテックLAB公式Xアカウント(@levtech_lab)で毎週火曜日と木曜日に更新中です!

今回、「ポストモーテム」というキーワードが出てきました。これは障害発生後の分析、振り返りのプロセスを指すSRE用語です。
ちなみに英語のポストモーテム(postmortem)には本来、「死後、事後、検視解剖」などの意味があります。
ポストモーテムはどうしても「障害報告をする人」「聞く人」に別れるため、障害報告をする人を非難するつもりはなくても、非難と捉えられるコミュニケーションになってしまうことがあります。
筆者の体験では、逆に障害報告をする人が過剰に自分を責めてしまうケースもありました。
ポストモーテムはあくまでどういう「仕組み」で問題が起こったのか、今後問題を防げるかを話し合う場です。特定個人の問題にしてしまうのはポストモーテムの本質ではありません。
例えば、漫画にも出てくる「自動化」は「人間が手作業を行うよりも障害を起きにくくする」工夫の1つでもあります。
今回は自動化が障害につながってしまいましたが、自動化が悪いから手作業に戻そう…ということではありません。KubernetesにはPod数の上限を設定できるので、「自動化しても事故りにくくする」といった考え方ができるといいですね。

機械は使い続けると必ずどこかで故障します。
それはインフラに利用しているサーバー機器なども同様です。そのため、私たちは「機械が故障するタイミング」を正確に測ることはできず、「もっとも壊れてほしくない時に立て続けに壊れる」という“不運”に見舞われることもあります。
AWSなどのクラウドサービスを利用していると直接機械に触れることが少ないため、あまり意識しないかもしれませんが、それでも「EC2インスタンスが突然故障・シャットダウンする」ということもあります。
こういった不運に対して一部のエンジニアは「祈り」をささげ、お守りを買ったり、神社に行ったりすることがあります。私も障害対応中は基本的に「頼む〜〜〜!!」と祈っています。
関連記事
人気記事