2026 年 5 月 24 日、InfoQ が Google Introduces Middleware Architecture for Genkit Applications を公開しました。Google が提供する AI / エージェントアプリ向け OSS フレームワーク Genkit に、モデル呼び出し・ツール実行・フロー全体に対する横断的インターセプト層となる Middleware アーキテクチャが実装されました。これにより 可観測性・コスト統制・セキュリティ・ガードレールが、アプリ各所での自作から 中間レイヤでの一括処理へと構造的に移ります。
受託で中堅企業の AI アプリ基盤を支える立場では、これは 「PoC が量産されたが、本番運用のガバナンス層が無い」という典型課題に、標準アーキテクチャの選択肢が増えたことを意味します。これまで Anthropic 月次クレジット予算ガバナンス受託 や Validating Agentic Behavior 信頼レイヤ受託 で扱った 「アプリ外側のガバナンス」を、Genkit Middleware は 「アプリと一体化した横断レイヤ」として実装可能にします。本記事では弊社が提供する 「Genkit Middleware ベース AI アプリ横断レイヤ」 受託パッケージを整理します。
なぜ「Middleware が AI アプリの主戦場」なのか
| 観点 | 従来の AI アプリ実装 | Genkit Middleware ベース |
|---|---|---|
| 観測・トレース | アプリ各所で手書き | Middleware で一括収集 |
| コスト集計 | アプリ別 / 後追い集計 | リアルタイム / 標準集約 |
| ガードレール | プロンプト埋め込み | 中間層で統一適用 |
| キャッシュ | 機能別実装 | Middleware で透過適用 |
| リトライ / フォールバック | tryCatch 散在 | 統一ポリシー |
| 権限 / 認証 | 各 API 呼び出しで実装 | リクエスト境界で一括 |
| A/B 試験 | 機能別フラグ | Middleware ルーティング |
つまり Genkit Middleware は Web アプリにおける Express / Connect Middlewareと同じ抽象化を、AI アプリ固有のモデル呼び出し / ツール / フローに対して提供する 「AI アプリの標準ガバナンス層」です。
受託案件で活きる 3 つの構造変化
構造 1: 「アプリ層に散在する横断処理」から「中間レイヤ集約」へ
これまで AI アプリでは ログ記録 / コスト集計 / プロンプトサニタイズ / レスポンス検証を 各機能の中で個別実装するケースが多発しました。Genkit Middleware は モデル / ツール / フロー呼び出しの前後に 共通フックを差し込めるため、横断処理を一箇所に集約できます。これは AGENTS.md / SKILL.md / DESIGN.md 受託設計 で扱った 共通仕様を、実装レイヤで体現するステップです。
構造 2: 「単一モデル前提」から「マルチモデル切替」へ
Genkit Middleware は モデル呼び出しの直前でルーティング可能なため、OpenAI / Anthropic / Google / xAI / オンプレ LLM の切替を アプリコード無改修で実現できます。これは Grok 含むマルチ LLM エージェント基盤受託 と組み合わせ、ゲートウェイ層 + Middleware 層の 2 段防衛で運用堅牢性を底上げします。
構造 3: 「本番後追い計測」から「本番標準計測」へ
Genkit Middleware で OpenTelemetry / Langfuse / Datadogなどの計測フックを 標準で組み込みできます。本番投入後に APM を後付けする現状から、初期から計測前提のアーキテクチャに移ります。これは Validating Agentic Behavior 信頼レイヤ受託 の延長線上にある 「観測駆動 AI アプリ」の標準形です。
受託で提供する「Genkit Middleware ベース AI アプリ横断レイヤ」5 フェーズ
フェーズ 1: 現状診断(2 週間)
- 既存 AI アプリ棚卸し(フレームワーク / モデル / 機能数)
- 観測・コスト・ガードレールの実装状況確認
- LLM 月額コストの可視化レベル評価
- 既存 PoC / 本番アプリの分類
- Middleware 化候補の優先順位付け
フェーズ 2: Middleware 設計(1〜2 週間)
- Genkit 採用範囲の決定(新規 / 既存リプレース)
- Middleware スタック設計(観測 / コスト / ガードレール / キャッシュ)
- マルチ LLM ルーティングポリシー
- ガードレール(PII マスキング / プロンプトインジェクション対策)設計
- 計測バックエンド選定(Langfuse / OpenTelemetry / Datadog)
フェーズ 3: PoC 実装(2〜3 週間)
- 代表アプリ 1〜2 件に Middleware 適用
- 既存実装との比較(精度 / コスト / 工数)
- パフォーマンスオーバーヘッド計測
- ガードレール検出率の評価
- 評価レポート作成
フェーズ 4: 本番展開(3〜4 週間)
- 既存 AI アプリの段階移行
- カナリア展開 + ロールバック手順
- 監視ダッシュボード構築
- インシデント対応ランブック整備
- 運用チームへのナレッジ移管
フェーズ 5: 月次運用レビュー(継続)
- Middleware 経由 LLM コスト / 件数
- ガードレール検出件数 / 誤検出率
- 観測トレースの活用状況
- 新規 Middleware 追加要望対応
- Genkit バージョン追従
受託向け技術スタック標準セット
| レイヤ | 推奨技術 | 代替 |
|---|---|---|
| フレームワーク | Genkit(Node.js / Go) | LangChain / Haystack |
| 観測 | Langfuse + OpenTelemetry | Phoenix / Helicone |
| コスト集計 | Langfuse + Grafana | 自前 BI |
| ガードレール | NeMo Guardrails / Lakera Guard | 自前 Middleware |
| キャッシュ | Redis Semantic Cache | GPTCache |
| モデル提供 | OpenAI / Anthropic / Google / xAI / Bedrock | Vertex AI |
| シークレット | HashiCorp Vault | Secrets Manager |
| CI/CD | GitHub Actions + Genkit CLI | GitLab CI |
どの案件に必要か / 不要か
| 必要な案件 | 不要な案件 |
|---|---|
| AI アプリが複数(5+)並走 | 単発 PoC のみ |
| LLM 月額 100 万円以上 | 月額数万円 |
| ガードレール / コンプライアンス要件 | 制約なし社内ツール |
| マルチモデル切替の必要性 | 単一モデル固定 |
| 観測 / トレース基盤を本格化したい | 試験運用フェーズ |
受託契約に書く 6 つの条項
| 条項 | 内容 | 顧客が確認すべきこと |
|---|---|---|
| 対象アプリ範囲 | 新規 / 既存 / 段階移行 | 業務影響度 |
| 観測基盤 | Langfuse / OTel / Datadog | 情報セキュリティポリシー |
| データ越境 | プロンプト / レスポンス送信先 | 規制要件 |
| ガードレール責任 | 検出 / ブロックの範囲 | 業務要件 |
| コスト集計 | モデル別 / 部門別精度 | 内部統制 |
| 退場時引き渡し | Middleware + 設定 + ダッシュボード | 自社運用継続性 |
価格モデル — Genkit Middleware 横断レイヤパッケージ
| プラン | 金額 | 対象 | 内容 |
|---|---|---|---|
| 診断 / PoC | 110 万円〜(4 週間) | AI アプリ棚卸し + 1 件 Middleware 化 | レポート + ロードマップ |
| Lite | 45 万円〜 / 月 | AI アプリ 1〜3 | 月次レビュー + Middleware 運用 |
| Standard | 100 万円〜 / 月 | AI アプリ 4〜8 | + ガードレール運用 + コスト最適化 |
| Enterprise | 200 万円〜 / 月 | AI アプリ 9〜 | + 24h 監視 + 専任 AI エンジニア |
| 初期構築 | 350 万円〜(一括) | Middleware スタック導入 + 観測基盤 | 全プラン共通オプション |
顧客側 ROI 試算(AI アプリ 6 / LLM 月額 150 万円想定)
| 項目 | 横断処理アプリ層自作 | Genkit Middleware 集約 | 差分 |
|---|---|---|---|
| 横断処理実装工数(年) | 900h | 250h | -650h |
| LLM 月額(コスト最適化後) | 150 万円 | 95 万円 | -55 万円 |
| ガードレール誤通過件数 | 60 件 / 年 | 8 件 / 年 | -52 件 |
| 観測ブラックホール時間 | 平均 30% | 平均 5% | -25pt |
| インシデント想定損害 | 1,000 万円 / 年 | 200 万円 / 年 | -800 万円 |
| 年間効果 | — | — | 約 1,800 万円相当 + 観測基盤強化 |
時給 8,000 円換算でも 年間 1,500 万円超の純削減効果。Standard プラン(年額 1,200 万円)でも 8〜10 ヶ月で回収できます。
ハマりやすい 5 つの落とし穴
落とし穴 1: 既存アプリを一括 Middleware 化
PoC アプリも含めて全件を一気に Middleware 化すると、バグ混入 + 検証コスト膨大になります。本番案件 → 段階適用が安全です。
落とし穴 2: ガードレールを過剰に厳しく
PII マスキング / プロンプトサニタイズを厳しすぎる設定にすると、正常リクエストまでブロックして業務影響を起こします。段階的に閾値を上げる運用が必須です。
落とし穴 3: 観測コストの見落とし
Langfuse / Datadog の イベント送信量は AI アプリで急増します。サンプリング + 圧縮 + 保持期間最適化を最初から設計します。
落とし穴 4: モデル切替時のレスポンス差異
Middleware でモデル切替する場合、レスポンス形式 / トークン数 / 精度差がアプリ層に波及します。A/B 評価フローを契約に含めます。
落とし穴 5: バージョン追従計画なし
Genkit は活発に進化中(バージョン追従コストあり)。月次評価 + 半期メジャー追従を契約に明記し、想定外コストを抑えます。
90 日アクションプラン
| 週 | アクション |
|---|---|
| Week 1〜2 | AI アプリ棚卸し + Middleware 化候補選定 |
| Week 3〜4 | Middleware スタック設計 + 観測基盤選定 |
| Week 5〜7 | PoC 実装 + 計測 / ガードレール評価 |
| Week 8〜9 | 本番カナリア + 段階展開 |
| Week 10 | 監視ダッシュボード + ランブック整備 |
| Week 11〜13 | 全アプリ移行完了 + 月次運用立ち上げ |
まとめ — 「AI アプリも Middleware 時代」になる時代
Google Genkit Middleware アーキテクチャの登場で、AI アプリの横断ガバナンスを 中間レイヤで一括処理するパターンが、中堅企業 AI アプリ基盤の 新しい標準になりました。受託で支える立場では、Middleware 設計 + 観測 + ガードレール + 月次レビューを一体で設計する 「Genkit Middleware ベース AI アプリ横断レイヤ」 が新しい主力サービスになります。
弊社では 診断 / Lite / Standard / Enterprise の 4 段階で本パッケージを提供しています。「AI アプリの観測が後手後手」「LLM コストが見えない / 統制できない」「ガードレールを一括適用したい」というご相談は お問い合わせフォーム からお気軽にどうぞ。