最新記事公開時にプッシュ通知します

Kubernetesの「内部構造」を理解し、クラスタ運用で差をつける6冊。自宅ラボでも実務でも

2026年2月17日

Kubernetesの「内部構造」を理解し、クラスタ運用で差をつける6冊。自宅ラボでも実務でも

須田 一輝

株式会社Preferred Networksのソフトウェアエンジニア。Kubernetesを基盤とした深層学習・AIワークロード向けクラウドサービス「PFCP」の開発・運用に従事。Kubernetes Meetup Tokyoの主催や書籍の執筆・監訳など、コミュニティ活動や情報発信にも精力的に取り組んでいる。
X:@superbrothers
GitHub:superbrothers

はじめに

前回は、Kubernetes の「利用者」として、アプリケーションをデプロイし、安定運用するための書籍を紹介しました。

そこから一歩進んで、Kubernetes クラスタそのものを「構築・提供する」立場になると、求められる知識は大きく変わります。近年では、生成 AI の学習・推論のために GPU を搭載したオンプレミスのマシンでクラスタを構成するケースや、組織固有の要件に合わせて Kubernetes 自体を拡張し、開発者が利用しやすい社内基盤として提供する取り組みが増えています。

こうした高度な要件に応えるには、マネージドサービスの便利さに隠蔽されていた「ブラックボックスの中身」に踏み込む必要があります。具体的には、コンテナランタイムや Linux カーネルの挙動、物理ネットワークとの接続、そして Kubernetes API の拡張メカニズムといった領域への理解です。

一方で、「今の業務ではクラスタ構築まで携わる機会はない」という方も多いでしょう。しかし、内部構造を根本から理解することは、Kubernetes でのトラブルシューティングの精度を高め、周囲から一歩抜きん出るための武器になります。

また、これらの実践は大規模なデータセンターでなくとも可能です。パブリッククラウドの VM や、Raspberry Pi などの小型 PC を並べて自宅でクラスタを構築・運用してみるだけでも理解の解像度が一段と高まります。私自身も、自宅でクラスタを構築・運用して楽しんでいる一人です。

今回は、業務でクラスタを運用されている方はもちろん、自宅クラスタで技術の探求を楽しみたい方まで、Kubernetes の内部構造を解き明かすための6冊を紹介します。

書籍リスト
1. 『Kubernetes in Action, Second Edition』 Marko Lukša, Kevin Conner 著
2. 『Cloud Native Data Center Networking:Architecture, Protocols, and Tools』 Dinesh G. Dutt 著
3. 『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy 編、澤田武男, 関根達夫, 細川一茂, 矢吹大輔 監訳、Sky株式会社 玉川竜司 翻訳
4. 『Programming Kubernetes:Developing Cloud-Native Applications』 Michael Hausenblas, Stefan Schimanski 著
5. 『プロフェッショナルTLS&PKI 改題第2版』 Ivan Ristić 著、齋藤孝道 監訳
6. 『詳解 システム・パフォーマンス 第2版』 Brendan Gregg 著、西脇靖紘 監訳、長尾高弘 訳

仕組みを深く理解するための決定版『Kubernetes in Action, Second Edition』

『Kubernetes in Action, Second Edition』 Marko Lukša, Kevin Conner 著、Manning Publications
▲『Kubernetes in Action, Second Edition』 Marko Lukša, Kevin Conner 著、Manning Publications

まだ公式サイトの情報すら少なかった時代に、私自身も本書で Kubernetes の仕組みを学びました。

本書の最大の価値は、単なるマニフェストの書き方にとどまらず、各コンポーネントが内部でどのように協調動作しているかを深く解説している点にあります。第1版(2017年)はさすがに情報が古くなっていましたが、この第2版(※)は最新の状況に対応しており、今から読むならこちらが間違いありません。
※執筆時点では3月刊行予定で、出版社の早期購入プログラムで閲覧可能。

マネージドサービスで Kubernetes を利用している場合でも、複雑なトラブルシューティングや、パフォーマンスチューニングを行う際には、内部構造の理解が非常に役立ちます。「なんとなく動いている」状態から脱却し、挙動をロジックとして「理解」するために読んでおきたい一冊です。

GPU/オンプレミス構築のネットワーク要件に応える『Cloud Native Data Center Networking』

『Cloud Native Data Center Networking:Architecture, Protocols, and Tools』 Dinesh G. Dutt 著、O'Reilly Media
▲『Cloud Native Data Center Networking:Architecture, Protocols, and Tools』 Dinesh G. Dutt 著、O’Reilly Media

クラウドネイティブな時代といえども、パケットは物理ケーブルを通って流れます。特に昨今の 生成 AI の台頭に伴う GPU クラスタ構築においては、広帯域・低遅延といったシビアな要件が求められ、クラウドの VPC や従来のオーバーレイネットワークだけでは対応しきれないケースが増えています。

本書は、データセンター向けの堅牢で拡張性の高いネットワーク構築について解説しています。特に、現在の GPU クラスタ等で標準的となっている Clos ネットワークトポロジー(Spine/Leaf アーキテクチャ)や、BGP といったルーティングプロトコルを、現代的なデータセンターでどう構成すべきかを学ぶことができます。

内容としては非常に特化していますが、データセンターでなくとも自宅のクラスタで「オーバーレイネットワークではなく、小型ルータと BGP を使用してコンテナネットワークを構成する」といった、挑戦的な要件に取り組むことは可能です。

ネットワークを専門とするエンジニアでなくとも、アプリケーションのパフォーマンスを最大限に引き出すために、また「なぜつながらないのか」「どこで遅延しているのか」を物理レイヤーの構造から理解するために、読んでおきたい一冊です。

“Kubernetes コントローラによる自動化”の源流と思想を学ぶ『SRE サイトリライアビリティエンジニアリング』

『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy 編、澤田武男, 関根達夫, 細川一茂, 矢吹大輔 監訳、Sky株式会社 玉川竜司 翻訳、オライリー・ジャパン
▲『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy 編、澤田武男, 関根達夫, 細川一茂, 矢吹大輔 監訳、Sky株式会社 玉川竜司 翻訳、オライリー・ジャパン

Kubernetes クラスタ自体も一つの「サービス」であり、その信頼性を管理するためには SRE の原則が役立ちます。SLO/SLI、エラーバジェット、トイルの削減など、現在幅広く使われている概念の多くは本書から広まりました。

しかし、私が本書をおすすめする最大の理由は、第2章と第7章にあります。 第2章では Kubernetes の起源となった Google のクラスタ管理システム「Borg」について解説されており、私たちが普段使っている機能がどのような課題解決のために生まれたのかを知ることができます。 そして第7章では、Borg における「自動化」、つまり、手作業の手順をソフトウェアとして実装し、開発者が利用するプラットフォームとして提供する方法論が語られています。これは、Kubernetes におけるコントローラや Operator の概念そのものです。

「手順を自動化するためのソフトウェア」を自ら実装し、独自の基盤を構築したいと考えるエンジニアにとって、本書はその設計思想を学ぶための重要な原典です。

なお、本書を読んで Borg に興味を持った方は、より詳細なアーキテクチャが解説されている論文「Large-scale cluster management at Google with Borg」もあわせて参照することをおすすめします。

Kubernetes コントローラ実装をコードレベルで読み解く『Programming Kubernetes』

『Programming Kubernetes:Developing Cloud-Native Applications』 Michael Hausenblas, Stefan Schimanski 著、O'Reilly Media
▲『Programming Kubernetes:Developing Cloud-Native Applications』 Michael Hausenblas, Stefan Schimanski 著、O’Reilly Media

SRE 本で「自動化の思想」を学んだら、次はその「実装」です。本書は、Kubernetes 上での自動化(カスタムコントローラや Operator)を開発するための専門書として、現時点でも代替がきかない一冊です。

Kubernetes API の基礎から API Server 内部の仕組み、クライアントライブラリである client-go の使用方法まで、コントローラ開発に必要な知識が網羅されています。特筆すべきは、Kubernetes 本体に含まれる kube-controller-manager などのコントローラも、本書で解説されているのと同じ仕組み・ライブラリで動作しているという点です。つまり、カスタムコントローラを開発する予定がない人にとっても、Kubernetes の深層で何が起きているのかを理解するための確かな手引きとなります。

一点留意が必要なのは、書籍内のライブラリやツールのバージョンが古く、サンプルコードがそのままでは動かない場合がある点です。しかし、Informer といった仕組みの本質部分は変わっていません。実装者はもちろん、Kubernetes の挙動をコードレベルで追いたいエンジニアにとっても必読書です。

コンポーネント間の「信頼」の仕組みを理解する『プロフェッショナルTLS&PKI 改題第2版』

『プロフェッショナルTLS&PKI 改題第2版』 Ivan Ristić 著、齋藤孝道 監訳、ラムダノート
▲『プロフェッショナルTLS&PKI 改題第2版』 Ivan Ristić 著、齋藤孝道 監訳、ラムダノート

自前でクラスタを構築・運用する際、避けて通れないのが TLS を用いた暗号化通信の理解です。

Kubernetes では、API Server、kubelet、etcd といった各コンポーネント間の通信に mTLS(相互 TLS)が多用されているほか、Ingress や Gateway API での TLS 終端や Admission Webhook の通信など、証明書に関わる設定は日常茶飯事です。

もし証明書チェーンや CA(認証局)、SAN(Subject Alternative Name)といった仕組みを正しく理解していないと、コンポーネント間の通信エラーが発生した際に、ログに出力されるエラーメッセージの意味すら理解できず、解決の手がかりを掴めないまま構築が頓挫することもあります。

本書は TLS/PKI の仕組みを日本語で体系的に学べる貴重な一冊です。特に第4章「公開鍵基盤」での解説は、Kubernetes クラスタ内のコンポーネント同士がどのように「信頼」関係を結んでいるのかを理解する上で、直接的な助けとなります。

ボトルネックの正体を突き止める『詳解 システム・パフォーマンス 第2版』

『詳解 システム・パフォーマンス 第2版』 Brendan Gregg 著、西脇 靖紘 監訳、長尾 高弘 訳、オライリー・ジャパン
▲『詳解 システム・パフォーマンス 第2版』 Brendan Gregg 著、西脇靖紘 監訳、長尾高弘 訳、オライリー・ジャパン

「なぜだか遅い」。クラスタ運用では、あらゆるコンポーネントでパフォーマンスの問題に直面します。コンテナといえど、動いているのは Linux カーネルの上であり、その振る舞いを理解していなければ原因は特定できません。

本書は、CPU、メモリ、ファイルシステム、ネットワーク、そして Linux カーネルといった指標を分析し、ボトルネックを特定するための方法論を解説しています。

Prometheus でのメトリクス収集で分析に必要なデータ収集は容易になりましたが、「そもそも何を集めておかなければならないのか」「その数値が何を示しているのか」を理解していなければ意味がありません。OS レベルでのパフォーマンス分析手法や具体的な分析ツールを学ぶことは、安定したクラスタ運用を実現する上で不可欠です。

おわりに

今回は、Kubernetes クラスタを自前で構築・運用し、さらに独自の基盤として拡張していくための6冊を紹介しました。Linux、ネットワーク、セキュリティ、そして分散システムといった、インフラストラクチャを支える多様な技術領域と向き合うことを求める書籍です。

Kubernetes クラスタの運用は、これら全ての知識が複合的に絡み合い、総合力が求められます。ハードルは高いかもしれませんが、そのブラックボックスの中身を理解しようと挑むこと自体が、エンジニアとしての基礎能力を底上げし、将来どのような技術に触れる際にも確かな糧となるはずです。

全2回にわたり、Kubernetes の「利用」から「内部構造」へと至る書籍を紹介しました。これらが皆さんのエンジニアリングの助けになれば幸いです。

関連記事

人気記事

  • コピーしました

RSS
RSS