最新記事公開時にプッシュ通知します
2026年2月6日


IT企業でオンライン学習サービスのSRE(Site Reliability Engineering)に従事する現役エンジニア。日々Kubernetesをはじめとするサービスのインフラを運営しながら、開発者のサポートに努める。著書に『つくって、壊して、直して学ぶ Kubernetes入門』(翔泳社)など。技術同人誌も多数手がける。趣味は漫画を読むこと、イラストを描くこと、音楽を聴くこと、そしてビール。
X:@_a0i
Instagram:@aoi_tofu
現役SREエンジニアのあおいさん(@_a0i)による4コマ漫画『まいにちSRE』。
主人公のチンチラ・金子とメンター役のコアラ・小山を中心に、とある会社のSREチームの日常をお届けします。
vol.1~vol.3の内容はこちらからご覧いただけます。最新話はレバテックLAB公式Xアカウント(@levtech_lab)で毎週火曜日と木曜日に更新中です!

最初この言葉を聞いた時は全く何のことかわからなかったのですが、目でgrepするから目grep。なるほど面白いな〜と思いました。
「低レイヤ技術者はバイナリエディタでバイナリを目grepできる」というのを見かけた時はさすがにわけがわかりませんでした。
技術者の特殊能力である目grepですが、何を目grepできるのか、はエンジニアによるのでしょうね。とにかく目を大事にしたいものです。

SREとしては何か問題が起こった時に根本原因をつきとめ、解決に至るのが理想です。
ただ、根本原因が全くわからない…という時に使う最後の手段が再起動。特に本番環境に影響が出るケースではユーザー影響を最小限にするためにまずは再起動してみる、ということもあるでしょう。
しかし、実際には「なぜかわからないけれど直った(再発しなくなった)」よりも「何度も再発し、その度に手動で再起動を行う」辛い運用に転じてしまうこともあるのではないでしょうか。
つい先日、私も「手動定期再起動」が1ヶ月近く発生していたところです。つらい手動運用をなんとかすべくメンバー一丸となって時間をかけて調査したところ、無事問題を特定し解決することができました。「手動再起動」運用はやればできてしまいますが、できる限り根本原因をつきとめたいですね。
関連記事



人気記事