高橋 あおい

IT企業でオンライン学習サービスのSRE(Site Reliability Engineering)に従事する現役エンジニア。日々Kubernetesをはじめとするサービスのインフラを運営しながら、開発者のサポートに努める。著書に『つくって、壊して、直して学ぶ Kubernetes入門』(翔泳社)など。技術同人誌も多数手がける。趣味は漫画を読むこと、イラストを描くこと、音楽を聴くこと、そしてビール。

X:@_a0i Instagram:@aoi_tofu つくって、壊して、直して学ぶ Kubernetes入門

SREチームの仲間として力を合わせ、数々のピンチを乗り越えてきた、チンチラの金子とコアラの小山。

現役SREエンジニアのあおいさん(@_a0i)が描く、ふたりの愉快でリアルな物語も、ついに最終回を迎えます。

物語はここでひと区切りとなりますが、ふたりのSREとしての奮闘は、きっとこれからも続いていきます。第1回からのバックナンバーはこちらから。

vol.18 Time Attack

これは実話をもとにしたエピソードです。

刻一刻と減っていく残容量に目を光らせ、空き容量を増やして時間を稼ぎながらDBサーバーを圧迫している原因を特定して止める...というかなりスリリングなことがありました。

でも、不思議とSREってそういう時に活き活きし始めるものですよね。

vol.19 障害連絡

障害が発生すると焦ってとにかく原因調査を進めてしまうことがあります。

しかし、障害が発生していることをユーザーや関係者に連絡することは大事な仕事の一つです。

開発者同士の距離が近くお互いに障害を認識していたとしても、他部署の人への連絡が漏れてしまう...私自身も経験したことです。

vol.20 SREって…?

そもそもSREにも色々なタイプがいる(アプリケーション開発者と同じチームで働くSRE、専任のSREチームで働くSRE)ため、一概に「SREってこういう仕事をする人」とは言いづらいですよね。

特に優秀なSREの方はアプリケーション開発からインフラまで多岐にわたる知識を持った方が多い印象があります。そういう方は、「とにかくユーザーのため、サイトの信頼性を保つためであれば…」と驚くような仕事をしていますね。

なんでもできる人が多いのは事実ですが、なんでもできる必要があるわけではありません。チームでSREをやっている組織ではチーム総力戦となるため、何か1つ得意な技を持っていればお互いカバーし合うこともできます。

もしこれを読んでSREに興味を持った方がいれば、ぜひSRE Magazine(https://sre-magazine.net/)を読んでみてください!