「先月の OpenAI の請求、なんでこんなに高いの?」——社内で AI を使い始めた中小企業の経営者・IT 担当から、いま最も多く聞かれる悩みのひとつです。ChatGPT の API、社内チャットボット、議事録要約ツール、コード補助——気づけば部署ごとにバラバラと LLM を呼ぶ仕組みが増え、誰が・どのアプリで・いくら使ったのかを把握できないまま、月末にまとめて請求が届く。従量課金なので止める仕組みもなく、ひとつのバグや使いすぎで請求が跳ね上がっても、それが分かるのは請求書が来てからです。
Cloudflare は 2026 年 6 月、こうした「AI コストの暴走」を止めるための新機能を AI Gateway に追加しました。従業員ごと・アプリごと・モデルごとに利用上限額(予算)を設定でき、上限に達したらリクエストを遮断する、あるいは安価な代替モデルに切り替えるというものです。Publickey も Cloudflare、従業員やアプリごとにAIの利用上限額を設定できるCloudflare AI Gatewayの新機能を発表(2026-06-09)でこれを報じています。受託開発・受託 Web 制作を支える立場では、これは「Cloudflare の新機能が出た」という話ではなく、**「社内で AI を使い始めた中小企業に、コストが見える・止まる仕組みを設計して引き渡せるか」という経営課題への入口だと捉えています。本記事では、AIのコスト対人件費でROI評価(GH Media) で扱った AI 投資の評価軸と接続して、「AI予算ガバナンス導入支援」**を受託パッケージとして整理します。
なぜAIコストは「暴走」するのか
AI のコストが見えなくなり、暴走するのには構造的な理由があります。
| 要因 | 何が起きるか |
|---|---|
| 従量課金 | 使った分だけ後払い。上限がなく、止める仕組みもない |
| 部門横断 | 営業・開発・バックオフィスが各々 AI を導入し、把握が分散する |
| 複数プロバイダ | OpenAI・Anthropic・Google など請求書がバラバラで合算できない |
| アプリの内製化 | 社内ツールやボットが裏で API を叩き、想定外のトークンを消費する |
| バグ・暴走 | ループや過剰リトライで一晩に数十万円が飛ぶ事故が起こる |
ここで重要なのは、「AI を導入できたこと」と「AI コストを統制できていること」はまったく別の話だという点です。多くの中小企業は前者まで到達したものの、後者の仕組みを持たないまま走り出しています。クレジットカードの利用明細のように「誰が・何に・いくら」が見えなければ、削減も予算化も判断できません。これは技術の問題というより、「経費の管理」が AI 利用に追いついていない経営の問題です。
AI Gateway と利用上限機能で何ができるか
Cloudflare AI Gateway は、自社のアプリと各 LLM プロバイダの間に挟む プロキシ(中継地点)です。アプリから直接 OpenAI や Anthropic を呼ぶ代わりに、いったん AI Gateway を経由させることで、すべての AI リクエストを 1 か所に集約できます。これにより、キャッシュ(同じ問い合わせは再利用)・レート制限・ログ記録・コスト可視化が、プロバイダをまたいで一元化されます。
今回の新機能 「Spend Limits(利用上限)」は、この基盤の上に 金額ベースの予算 を載せるものです。リクエスト数を制限する従来のレート制限とは異なり、実際のトークン消費量とモデル料金から累積の「ドル(金額)」を計算し、予算を超えたら遮断します。
- 粒度を選べる: モデル単位・プロバイダ単位に加え、管理者が定義した属性(ユーザー・チーム・アプリ)ごとに上限を設定できる。
- 柔軟な期間: 日次・週次・月次。月初・週初・深夜にリセットする固定枠か、ローリング(直近 N 日)かを選べる。
- 上限到達時の動作: 既定ではリクエストを遮断。あるいは Dynamic Routes で安価な代替モデルへ自動フォールバックさせ、業務を止めずにコストだけ抑える設定も可能。
- 誰が使ったか分かる: Cloudflare Access で認証すると、従業員の ID が JWT から抽出されリクエストのメタデータに付与される。従業員単位・チーム単位のトークン消費とコストが 1 画面で見えるようになる。
たとえば「従業員 1 人あたり 1 日 200 ドルまで」「ゲートウェイ全体で 1 日 1 万ドルまで」「特定モデルはユーザーあたり 1 日 50 ドルまで」といった上限を組み合わせられます。なお本機能は全プラン向けにオープンベータで提供されており、AI Gateway のコア機能(分析・キャッシュ・レート制限)自体は無料で使えます。
直接API利用 vs ゲートウェイ経由の比較
| 観点 | 直接 API 利用(従来) | AI Gateway 経由 |
|---|---|---|
| コスト把握 | プロバイダごとの請求書を後から合算 | 1 画面で横断的に可視化 |
| 利用上限 | 実質なし(青天井) | 金額ベースで設定・遮断 |
| 誰が使ったか | 不明(APIキー共有が多い) | 従業員/チーム/アプリ単位で計上 |
| 上限到達時 | 何も起きない | 遮断 or 代替モデルへ切替 |
| キャッシュ | アプリ側で自前実装 | ゲートウェイが共通で再利用 |
| プロバイダ追加 | 各々で実装・管理 | 接続先を集約して一元管理 |
つまり、「AI が使えること」から「AI コストを統制した状態で使えること」へ——ここを成果物として保証できるかが、受託の価値になります。マルチ LLM を束ねる発想は OpenRouterでマルチLLMゲートウェイ設計(GH Media) とも通じます。
設定の流れ(最小例)
AI Gateway は「1 行の差し替え」で導入できる設計です。アプリ側の API 呼び出し先を、プロバイダの URL から AI Gateway のエンドポイントに変えるだけです。利用上限はダッシュボードや API で定義します。下は、従業員単位の上限を設定するイメージ(概念)です。
# 1) アプリの呼び出し先を AI Gateway 経由に差し替える(例: OpenAI 互換)
# 旧: https://api.openai.com/v1/chat/completions
# 新: https://gateway.ai.cloudflare.com/v1/<account_id>/<gateway>/openai/chat/completions
# 2) 従業員ごと「1日200ドルまで」の利用上限を定義(概念例)
curl -X POST "https://api.cloudflare.com/client/v4/accounts/<account_id>/ai-gateway/gateways/<gateway>/spend-limits" \
-H "Authorization: Bearer <api_token>" \
-H "Content-Type: application/json" \
-d '{
"scope": "user",
"limit_usd": 200,
"window": "daily",
"reset": "fixed",
"on_exceed": "block"
}'
実際のフィールド名・操作手順は Cloudflare のドキュメントが正です。受託ではこの設定を「業務に合った粒度と運用」に落とし込むことが本質で、コマンドを打つこと自体ではありません。Cloudflare Workers 上での実装は Hono × Cloudflare Workers エッジAPIガイド(GH Media) も参考になります。
受託で提供する「AI予算ガバナンス導入支援」5フェーズ
フェーズ 1: 棚卸し・診断(1 週間)
- 社内で稼働中の AI 利用箇所(API・社内ツール・SaaS)の洗い出し
- プロバイダ別・部署別の現状コストの把握
- APIキーの共有状況・上限の有無の確認
- 成果物: AI 利用棚卸し表 + 現状コスト・リスクレポート
フェーズ 2: 設計(1 週間)
- 上限の粒度(従業員/チーム/アプリ/モデル)と金額・期間の設計
- 上限到達時の動作(遮断 or 代替モデル)の方針決定
- 認証(Cloudflare Access)と ID 連携の方針
- 成果物: 予算ガバナンス設計書 + 上限ポリシー表
フェーズ 3: 実装(1〜3 週間)
- アプリ呼び出しを AI Gateway 経由に切り替え
- 利用上限・キャッシュ・レート制限の設定
- ログ・コストダッシュボードの整備
- 成果物: 稼働するゲートウェイ + 設定ドキュメント
フェーズ 4: 検証・引き渡し(1 週間)
- 上限到達時の遮断/フォールバックの動作検証
- コスト計上が部署・従業員単位で正しく見えるかの確認
- 成果物: 検証レポート + 運用手順書
フェーズ 5: 継続運用(継続)
- 月次のコストレビューと上限の見直し
- プロバイダ・アプリ追加時のゲートウェイ組み込み
- 予算超過アラートの運用代行
受託向け実装標準セット
| 項目 | 推奨 | 避ける |
|---|---|---|
| 呼び出し経路 | すべて AI Gateway 経由に統一 | アプリごとに直接 API |
| APIキー | ゲートウェイ側で集約管理 | 全社で 1 本を共有 |
| 上限の粒度 | 従業員/アプリ単位で設定 | 全社一括の大枠だけ |
| 上限到達時 | 遮断 or 代替モデル切替 | 何も設定しない |
| 可視化 | 部署/従業員別ダッシュボード | 請求書を月末に集計 |
| 認証 | Cloudflare Access で ID 連携 | 匿名のままメタデータなし |
どの案件に必要か / 不要か
| 必要な案件 | 優先度が低い案件 |
|---|---|
| 複数部署で AI を使い始めた企業 | AI 利用が一部の試験運用のみ |
| 月の AI 請求が読めない/増えている | コストが小さく無視できる |
| 社内ツールが裏で API を叩いている | 外部 SaaS だけで完結 |
| 誰がいくら使ったか把握したい | 利用者が 1〜2 名で把握済み |
| 暴走・誤用での過大請求が怖い | 上限不要なほど低頻度 |
受託契約に書く6つの条項
| 条項 | 内容 | 顧客が確認すべきこと |
|---|---|---|
| 対象範囲 | ゲートウェイ化する AI 利用の範囲 | 移行する/しないの境界 |
| 上限ポリシー | 粒度・金額・期間の定義 | 業務を止めない設定か |
| 到達時動作 | 遮断 or 代替モデル | 業務影響の許容度 |
| 可視化範囲 | 計上する単位(部署/従業員) | ログの保存・PII の扱い |
| 引き渡し | 設定/運用手順の提供 | 自社運用できる状態か |
| 継続運用 | 月次レビュー・追加対応 | 運用費用と SLA |
価格モデル — AI予算ガバナンス導入パッケージ
| プラン | 金額 | 対象 | 内容 |
|---|---|---|---|
| 診断 | 20 万円〜 | 1 社 | 利用棚卸し + 現状コスト・リスクレポート |
| 標準導入 | 80 万円〜 | 中規模 | ゲートウェイ化 + 上限/可視化の設計・実装 |
| 本格導入 | 160 万円〜 | 大規模 | + 全社展開 + 認証連携 + 部署別運用設計 |
| Lite 保守 | 3 万円〜 / 月 | 小規模 | 月次コストレビュー + 軽微な上限調整 |
| Standard 保守 | 10 万円〜 / 月 | 中規模 | + プロバイダ/アプリ追加対応 + アラート運用 |
顧客側 ROI 試算(複数部署でAI利用が拡大中の想定)
| 項目 | 上限なしで放置 | ガバナンス導入後 | 差分 |
|---|---|---|---|
| コストの可視性 | 月末に判明 | リアルタイムで把握 | 早期是正が可能に |
| 過大請求リスク | 暴走を止められない | 上限で自動遮断 | 想定外請求の回避 |
| 無駄遣い | 検知できない | 部署別に特定 | 利用最適化で削減 |
| 予算化 | 不可能 | 部署/従業員に割当 | 計画的な投資へ |
| 年間効果 | — | — | 請求の予測可能化 + ムダの削減 |
診断(20 万円〜)だけでも、「いまの自社が、AI に毎月いくら・誰が使っているのか」を可視化できること自体に価値があります。コストが見えない状態で進む AI 投資は、たいてい数か月で「気づいたら高い」に行き着きます。AI 投資の費用対効果の考え方は AIのコスト対人件費でROI評価(GH Media) も併読してください。
ハマりやすい5つの落とし穴
落とし穴 1: 上限の粒度が粗すぎる / 細かすぎる
全社一括の大枠だけだと、誰が使いすぎたか分かりません。逆に細かすぎると運用が破綻します。「部署 + 主要アプリ」程度から始め、運用しながら調整します。
落とし穴 2: 遮断が業務を止める
ハードな遮断は、上限到達と同時に現場の業務を止めてしまいます。重要な業務は代替モデルへのフォールバックを用意し、止めてよい用途とそうでない用途を分けます。
落とし穴 3: ログに個人情報が残る
プロンプトとレスポンスのログには、顧客名や社内機密が含まれがちです。PII のマスキング方針とログ保存期間を契約で明文化します。
落とし穴 4: 新しいプロバイダ・アプリの組み込み漏れ
後から増えた AI 利用がゲートウェイを経由せず、可視化と上限の外をすり抜けます。「新規 AI 利用は必ずゲートウェイ経由」を運用ルール化します。
落とし穴 5: 通知・アラートが運用されない
上限の 80% に達しても、誰も気づかなければ意味がありません。しきい値アラートの宛先と対応手順を決め、月次レビューに組み込みます。
90日アクションプラン
| 週 | アクション |
|---|---|
| Week 1 | 社内 AI 利用の棚卸し + 現状コストの把握 |
| Week 2 | 上限ポリシー設計 + 到達時動作の方針決定 |
| Week 3〜5 | ゲートウェイ化 + 上限/可視化/認証の実装 |
| Week 6 | 遮断・フォールバック・計上の検証 + 手順整備 |
| Week 7〜13 | 月次コストレビュー + 上限の調整 + 追加組み込み |
まとめ — 「使えるAI」から「統制されたAI」へ
Cloudflare AI Gateway の利用上限機能は、AI 利用を「使った分だけ後払いの青天井」から「誰が・いくらまで、を決めて運用する」へと押し進めます。受託で AI 導入を支える立場では、ゲートウェイで利用を集約し、従業員/アプリ単位で上限と可視化を設計し、業務を止めないフォールバックまで含めて引き渡す 「AI予算ガバナンス導入支援」が、AI コストの暴走を止める主力サービスです。インフラ全体を Cloudflare に寄せるかどうかの判断は CloudflareとAWSのインフラ選定(GH Media) も参考になります。
弊社では診断 / 標準導入 / 本格導入 / Lite / Standard の各段階で本パッケージを提供しています。「毎月の AI 請求が読めない」「誰がいくら使ったか把握したい」「上限を超えたら止まる/切り替わる仕組みが欲しい」というご相談は お問い合わせフォーム からお気軽にどうぞ。
Sources
- Cloudflare、従業員やアプリごとにAIの利用上限額を設定できるCloudflare AI Gatewayの新機能を発表(Publickey 2026-06-09)
- Your AI bill is out of control. Cloudflare can fix it now.(Cloudflare Blog)
- Control AI costs with spend limits(Cloudflare Changelog 2026-06-05)
- Cloudflare AI Gateway docs(Overview)
- Cloudflare AI Gateway - AI Application Control Plane(製品ページ)
- AIのコスト対人件費でROI評価(GH Media)
- OpenRouterでマルチLLMゲートウェイ設計(GH Media)
- Hono × Cloudflare Workers エッジAPIガイド(GH Media)
- CloudflareとAWSのインフラ選定(GH Media)