Cloudflare Code Mode MCP でエージェントのトークン消費を 7 割削る設計パターン 2026 | GH Media
URLがコピーされました

Cloudflare Code Mode MCP でエージェントのトークン消費を 7 割削る設計パターン 2026

URLがコピーされました
Cloudflare Code Mode MCP でエージェントのトークン消費を 7 割削る設計パターン 2026

「エージェントの API コストが想定の 3 倍膨らんでいる」——PoC を本番に載せ替える局面で、最近もっとも相談が増えているのがこのテーマです。原因の大半はツール呼び出しのたびに全コンテキストを LLM に送り直している構造にあり、Cloudflare が 4 月に公開した Code Mode MCP Server は、この構造問題に対する有望な解になりつつあります。

本記事では、Code Mode MCP のコンセプト、既存 MCP サーバーとの違い、ワーカー環境での安全な実行設計、そして受託案件で採用する際のコスト削減試算を、実装担当の目線で整理します。

従来の MCP がトークンを食う仕組み

MCP のツール呼び出しは、原則 1 アクション = 1 LLM ラウンドトリップです。たとえば「顧客 A の先月請求を確認して未収なら催促メール」を処理する場合、次のように 4 往復が発生します。

ステップ送信内容トークン目安
1. 顧客検索ツール呼び出し全ツール定義 + 履歴4,000
2. 請求一覧ツール呼び出し全ツール定義 + 履歴 + 検索結果5,500
3. 未収判定 + メール作成全ツール定義 + 履歴 + 請求一覧7,000
4. メール送信ツール呼び出し全ツール定義 + 履歴 + メール本文7,500

合計 24,000 トークン。ユースケースが複雑化すると、ここにツール定義の再送コストが加算され、月数十万円単位で差がつきます。私たちが MCP 完全ガイド既存 API を MCP サーバー化する設計パターン で整理してきた知見の延長線上にある課題です。

Code Mode が変えるアーキテクチャ

Code Mode MCP は、エージェントに「ツールを 1 個ずつ呼ばせる」のではなく「やりたいことをコードで書かせて 1 度だけ実行する」方式を採ります。

// エージェントが生成するコード(例)
const customer = await mcp.findCustomer({ name: "A社" });
const invoices = await mcp.listInvoices({ customerId: customer.id, period: "last_month" });
const unpaid = invoices.filter(i => i.status === "unpaid");
if (unpaid.length > 0) {
  await mcp.sendReminderEmail({
    to: customer.email,
    amount: unpaid.reduce((s, i) => s + i.amount, 0),
  });
}

このコードを Cloudflare Workers 上の隔離サンドボックスで実行し、結果だけを LLM に戻します。4 往復が 1 往復に縮み、ツール定義の再送も消えるため、同じタスクを 7,000 トークン前後で完結できます。削減率 70% が現実的な目安です。

安全性を担保する 3 つの境界

「AI にコードを書かせて実行する」と聞くと、反射的に怖がられる設計です。受託で採用する場合、次の 3 層で境界を張ります。

  1. サンドボックス隔離:Cloudflare Workers の isolate で実行し、ファイルシステム・ネットワークは MCP 経由のみ許可
  2. ツール ACL:エージェントごとに呼べるツールをホワイトリスト化(読み取り専用 / 書き込み許可を分離)
  3. HITL(人間承認):金銭・対外送信系の操作は、生成コードを人間が目視レビューしてから実行

Anthropic Computer Use を業務に組み込むガイド で触れた HITL 設計は、Code Mode でも同じく必須です。「コード生成 → 実行」の間にワンクッション挟むだけで、暴走リスクは実務的に抑えられます。

コスト試算:月 10 万件処理のエージェント

月 10 万セッションを処理するエージェントで、従来型と Code Mode で比較します。

項目従来 MCPCode Mode MCP
1 セッションのトークン24,0007,000
月間トークン24 億7 億
Claude Sonnet 4.6 換算(入 $3 / 出 $15、入力 70%)約 130 万円/月約 38 万円/月
Cloudflare Workers 実行コスト-約 3 万円/月
合計130 万円41 万円

差額 89 万円/月 = 年間 1,068 万円。PoC 段階で Code Mode を選ぶかどうかが、運用期の損益分岐点に直結します

受託案件で提案する型

Code Mode MCP は、単独で導入するより既存エージェントの「配管の張替え」案件として提案するのが通りやすい傾向にあります。

案件の型期間単価帯提供物
既存エージェントの Code Mode 移行4〜6 週間250〜500 万円移行設計・実装・コスト計測
新規エージェント(Code Mode 前提)8〜12 週間600〜1,200 万円要件定義〜本番運用まで
運用伴走(コスト最適化中心)月額60〜120 万円監視・プロンプト調整・新モデル切替

とくに既存エージェントをすでに走らせている企業は、私たちが Claude Code 運用コスト最適化の記事 で整理したのと同じ「コスト圧縮契約」の枠で話を進められます。

導入判断のチェックリスト

Code Mode を採用すべきか迷ったら、次の 4 点で判定します。

  1. 1 セッションあたりのツール呼び出し数が 3 回以上(少ないなら従来型で十分)
  2. 月間セッション数が 1 万件以上(削減効果が費用対効果に載る規模)
  3. 既存 MCP ツールが安定している(ラップするだけで再利用できる)
  4. 開発者が TypeScript/JavaScript を読める体制(生成コードのレビューに必要)

4 点とも満たせば、Code Mode への移行は高確度で ROI が出ます。

まとめ — エージェントの本番運用は「書かせて実行」が標準に

従来の MCP は「ツールを呼ぶ AI」のための規格でしたが、Code Mode は「コードを書く AI」という現実に合わせて再設計された層です。トークン削減率 70% は、PoC と本番運用の境界線で効いてきます。

弊社では、既存エージェントの Code Mode 移行、新規エージェント設計、運用伴走を受託で提供しています。「AI コストを半減させたい」「本番投入のアーキを固めたい」というご相談は、お問い合わせフォーム からお気軽にどうぞ。

URLがコピーされました

グリームハブ株式会社は、変化の激しい時代において、アイデアを形にし、人がもっと自由に、もっと創造的に生きられる世界を目指しています。

記事を書いた人

鈴木 翔

鈴木 翔

技術の可能性に魅了され、学生時代からプログラミングとデジタルアートの分野に深い関心を持つ

関連記事