2026 年 5 月、InfoQ が Google Announces GKE Agent Sandbox and Hypercluster at Next ‘26, Positioning Kubernetes as AI Agent Runtime を公開し、Google Cloud Next ‘26 で GKE Agent Sandbox と Hypercluster が発表されました。Kubernetes を「AI エージェントの標準ランタイム」として位置付ける戦略的アップデートで、マルチテナント・隔離実行・GPU プーリングを一気通貫で扱う基盤が整いました。
弊社では受託の AI エージェント案件で、「複数顧客のエージェントを 1 つのインフラで安全に隔離して運用したい」という要望が増えています。本記事では、GKE Agent Sandbox / Hypercluster を受託のエージェント基盤として組む設計、課金分離、SLA を整理します。
何が変わったのか — エージェント前提の Kubernetes
GKE Agent Sandbox と Hypercluster は、「コンテナワークロード一般」ではなく 「AI エージェント特有の要件」に最適化された 2 つの仕組みです。
| 機能 | 内容 | 受託案件での価値 |
|---|---|---|
| Agent Sandbox | エージェント単位の強制隔離 | 顧客間 / エージェント間の安全分離 |
| Hypercluster | マルチクラスタ GPU プーリング | GPU 在庫を案件横断で動的配分 |
| Lifecycle Hook | エージェント起動・終了の標準化 | コスト計測 / 監査ログ統合 |
| Resource Quota | GPU / トークン / API の上限 | 顧客別の課金分離 |
| Audit by Default | 全エージェント実行の監査ログ | 規制業界での導入要件を満たす |
特に **「Agent Sandbox」は、「Pod 単位のセキュリティ」ではなく 「エージェント単位の振る舞い境界」を設計する仕組みで、これまで自前で組んでいた 「prompt injection でファイルシステムが破られる」**といった事故対策が、プラットフォーム標準で吸収されます。
これは Kubernetes 上で自律 AI エージェントを安全に運用する で扱った “K8s でのエージェント隔離” の クラウドプロバイダ標準化版で、自前の Pod Security Policy 設計を 1/3 に削減できる構造です。
受託で組む「マルチテナントエージェント基盤」の 4 階層
GKE Agent Sandbox / Hypercluster を活用した受託標準の階層は以下です。
[Tier 1: Hypercluster (GPU / 計算リソース基盤)]
├ 複数 GKE クラスタを横断
├ GPU をプール → 案件横断で動的配分
└ Spot / Preemptible で 50〜70% コスト削減
[Tier 2: Tenant Cluster (案件 = テナント)]
├ 案件ごとに論理的なテナント
├ Resource Quota で GPU / トークン / API 上限
└ 課金タグで請求分離
[Tier 3: Agent Sandbox (エージェント = サンドボックス)]
├ 各エージェントを強制隔離
├ ネットワーク / FS / API スコープを制限
└ prompt injection 対策をプラットフォーム任せ
[Tier 4: Workload (実行単位)]
├ MCP サーバー / Tool / RAG パイプライン
├ 短命 Job として実行
└ Lifecycle Hook で監査ログ送信
特に Tier 1 の Hypercluster は、「GPU の在庫を持たずに案件を回せる」という受託特有のニーズに刺さります。1 案件で月 100 時間しか GPU を使わないような中規模案件を 10 件抱えても、プールから動的に配分することで GPU 利用率を高く維持できます。
課金分離 — 受託で「顧客別請求」を成立させる
マルチテナント基盤で最も難しいのが 「誰が何をどれだけ使ったか」の分離です。GKE Agent Sandbox では以下の 3 つの軸で計測できます。
| 計測軸 | 取得方法 | 顧客請求への反映 |
|---|---|---|
| GPU 使用時間 | Hypercluster の利用ログ | 時間単価 × 利用時間 |
| トークン消費 | Lifecycle Hook + 監査ログ | モデル別 × トークン |
| API 呼び出し | サンドボックスのネットワークログ | 外部 API ベンダー毎 |
| ストレージ | PVC / オブジェクトストレージ | GB × 保存期間 |
| データ転送 | エグレスログ | 案件横断トラフィック |
特に 「データ転送」は受託で見落としやすく、RAG で大量の埋め込みベクトルを扱う案件では、egress 課金が GPU 課金を上回るケースも発生します。
これは GitHub Copilot 従量課金とトークン消費ガバナンス で扱った “課金可視化” を、インフラレイヤーまで拡張したものと整理できます。
受託契約に書く「マルチテナント条項」
GKE Agent Sandbox / Hypercluster を受託で運用するときに契約に書く条項です。
| 条項 | 内容 | 顧客との合意ポイント |
|---|---|---|
| テナント境界 | 顧客 = 1 テナントの定義 | 子会社 / 部門での扱い |
| 隔離保証 | サンドボックス間の通信不可 | 例外申請のフロー |
| GPU 優先度 | 高優先 / 通常 / Spot の区分 | 障害時の縮退順序 |
| 課金透明性 | 計測項目と請求書の対応 | 月次レポート形式 |
| 障害時 SLA | 単一テナント影響時の対応 | 隔離が破られた場合の対応 |
特に 「GPU 優先度」は最初に明文化しないと、GPU 在庫が逼迫したときに「うちの案件を優先してくれ」という押し問答が発生します。Spot / 通常 / 高優先の 3 段階で価格差を契約に書き、顧客に選んでもらう運用が破綻しません。
ハマりやすい 5 つの落とし穴
落とし穴 1: テナント境界を「Namespace だけ」で組む
Namespace 隔離はネットワーク / FS / IAM のすべてをカバーしません。Agent Sandbox の強制隔離を必ず組み合わせます。
落とし穴 2: Hypercluster の DR 設計を忘れる
Hypercluster は 複数 GKE クラスタを横断しますが、1 リージョン全停止で受託全案件が止まる構成は危険です。マルチリージョン設計を初期から組みます。
落とし穴 3: 課金タグの強制が緩い
エージェントごとのタグ付けが任意だと、月末に「どの案件のコストか不明な GPU 課金」が必ず出ます。タグなし起動を deny する admission policy を Tier 2 で強制します。
落とし穴 4: Lifecycle Hook で監査ログを送り忘れる
エージェント起動・終了のフックを実装しないと、監査ログが歯抜けになります。Hook なし = 起動拒否を admission policy で強制します。
落とし穴 5: Spot 利用で本番品質を落とす
「コスト削減のため Spot」は 強制終了で会話が切れる事故を生みます。Spot は非対話バッチ専用にし、対話エージェントは通常ノードを割り当てます。
価格モデル — マルチテナントエージェント基盤受託パッケージ
弊社では GKE Agent Sandbox / Hypercluster を活用した受託パッケージを以下で提供しています。
| プラン | 初期 / 月額 | 対象 | 内容 |
|---|---|---|---|
| Agent Platform Lite | 300 万円 / 30 万円〜 | 単一案件のエージェント本番 | Tier 3 + Tier 4 構築 + 監査ログ |
| Agent Platform Standard | 800 万円 / 80 万円〜 | 中堅企業 / 複数案件 | Lite + Tier 2 課金分離 + Hypercluster 接続 |
| Agent Platform Enterprise | 2000 万円〜 / 200 万円〜 | 大規模 / 規制業界 | Standard + Tier 1 構築 + DR + 24h 監視 |
特に Agent Platform Standard は、「複数案件横断でエージェントを安全に運用したい」中堅 SaaS / 業務システム会社の典型的なニーズに刺さるレンジです。
まとめ — 「自前で組む」から「プラットフォームに任せる」へ
GKE Agent Sandbox / Hypercluster の登場で、「エージェント基盤を自前で組む」選択肢は 「明確な理由がある場合のみ」に縮小しました。マルチテナント・隔離・GPU プーリングを プラットフォーム標準で吸収できる時代に、受託は 「組むこと」より「運用設計と契約設計」に価値を寄せるべきです。
弊社では Agent Platform Lite / Standard / Enterprise の 3 段階で マルチテナントエージェント基盤の受託パッケージを提供しています。「複数顧客のエージェントを 1 つの基盤で隔離運用したい」「GPU 在庫を持たずに受託を回したい」というご相談は お問い合わせフォーム からお気軽にどうぞ。