最新記事公開時にプッシュ通知します

【4コマ漫画】まいにちSRE vol.10~vol.11

2026年2月27日

まいにちSRE

高橋 あおい

IT企業でオンライン学習サービスのSRE(Site Reliability Engineering)に従事する現役エンジニア。日々Kubernetesをはじめとするサービスのインフラを運営しながら、開発者のサポートに努める。著書に『つくって、壊して、直して学ぶ Kubernetes入門』(翔泳社)など。技術同人誌も多数手がける。趣味は漫画を読むこと、イラストを描くこと、音楽を聴くこと、そしてビール。
X:@_a0i
Instagram:@aoi_tofu

転職でとある会社のSREチームに加わったチンチラ・金子と、メンター役のコアラ・小山。

ふたりの愉快なやり取りを、現役SREエンジニアのあおいさん(@_a0i)が4コマ漫画に描きます。

これまでの内容はこちらからご覧いただけます。最新話はレバテックLAB公式Xアカウント(@levtech_lab)で毎週火曜日と木曜日に更新中です!

vol.10 自動化の罠

自動化の罠

今回、「ポストモーテム」というキーワードが出てきました。これは障害発生後の分析、振り返りのプロセスを指すSRE用語です。

ちなみに英語のポストモーテム(postmortem)には本来、「死後、事後、検視解剖」などの意味があります。

ポストモーテムはどうしても「障害報告をする人」「聞く人」に別れるため、障害報告をする人を非難するつもりはなくても、非難と捉えられるコミュニケーションになってしまうことがあります。

筆者の体験では、逆に障害報告をする人が過剰に自分を責めてしまうケースもありました。

ポストモーテムはあくまでどういう「仕組み」で問題が起こったのか、今後問題を防げるかを話し合う場です。特定個人の問題にしてしまうのはポストモーテムの本質ではありません。

例えば、漫画にも出てくる「自動化」は「人間が手作業を行うよりも障害を起きにくくする」工夫の1つでもあります。

今回は自動化が障害につながってしまいましたが、自動化が悪いから手作業に戻そう…ということではありません。KubernetesにはPod数の上限を設定できるので、「自動化しても事故りにくくする」といった考え方ができるといいですね。

vol.11 最後はやっぱり神頼み?

最後はやっぱり神頼み?

機械は使い続けると必ずどこかで故障します。

それはインフラに利用しているサーバー機器なども同様です。そのため、私たちは「機械が故障するタイミング」を正確に測ることはできず、「もっとも壊れてほしくない時に立て続けに壊れる」という“不運”に見舞われることもあります。

AWSなどのクラウドサービスを利用していると直接機械に触れることが少ないため、あまり意識しないかもしれませんが、それでも「EC2インスタンスが突然故障・シャットダウンする」ということもあります。

こういった不運に対して一部のエンジニアは「祈り」をささげ、お守りを買ったり、神社に行ったりすることがあります。私も障害対応中は基本的に「頼む〜〜〜!!」と祈っています。

関連記事

人気記事

  • コピーしました

RSS
RSS