2026 年 5 月 11 日、InfoQ が Local-First AI Inference: A Cloud Architecture Pattern for Cost-Effective Document Processing を公開し、4,700 枚のエンジニアリング図面 PDF処理で API コスト 75% 削減 + 処理時間短縮を実証したアーキテクチャパターンを公表しました。
「70〜80% の文書はローカル決定的抽出で処理し、残り 20〜30% のエッジケースのみクラウド LLM へ送る」という単純で強力な発想で、コスト爆発に悩む文書 DX 受託案件の標準パターンになる可能性があります。これは OCR × LLM ハイブリッドで 99.94% 認識精度 と相互補完的な、「精度」と 「コスト」両軸からの最適化アプローチです。
なぜ「全件 LLM 呼び出し」がコストで爆発するか
| 項目 | 全件 LLM | Local-First |
|---|---|---|
| 月間文書数 | 100 万件 | 100 万件 |
| LLM 呼び出し | 100 万回 | 20 万回 |
| API コスト | 100 万円 | 25 万円 |
| 処理時間 | 平均 5 秒/件 | 平均 1.5 秒/件 |
| オフライン耐性 | ゼロ(API 障害で停止) | 70〜80% は継続稼働 |
これは Computer Use 45 倍コスト受託 で扱ったコスト爆発と同じ構造で、「LLM を使うか / 使わないか」ではなく 「どの文書だけ LLM を使うか」を設計する必要があります。
Local-First AI 推論の 4 段ルーティング
段 1: 決定的抽出(高速・低コスト)
正規表現 / テンプレート / ルールベースで、「明らかに型が決まっている文書」を処理します。請求書 / 契約書テンプレート / 申込書など、フォーマットが固定された文書は 大半がここで完結します。
段 2: 軽量モデル抽出(ローカル推論)
LayoutLM / Donut / Qwen-VL-Local などの 軽量モデルを ローカル GPU / CPU で動かし、型がぼやけている文書を処理します。1 件あたり 1 円未満で完結します。
段 3: クラウド LLM 呼び出し(高コスト・高精度)
「決定的抽出も軽量モデルもダメ」だった文書のみ、Claude / GPT-5.5 / Gemini 2.5 に投げます。全体の 20〜30% に絞ることで API コストを劇的に圧縮します。
段 4: 人手レビューキュー
「LLM が自信なし」と返した文書は、人手レビュー UI に流します。全体の 1〜5% が現実的な比率です。
受託で構築する 3 つの実装フェーズ
フェーズ 1: ルーティングルール設計(4 週間)
過去 1 ヶ月分の文書サンプルを分析し、「決定的抽出で何 % 通せるか」を実測します。ルーティング比率の根拠を顧客と握ります。
フェーズ 2: パイプライン構築(8〜10 週間)
ストレージ(S3 / GCS)+ キュー(SQS / Pub/Sub)+ ローカル推論ワーカー + クラウド LLM ワーカー + レビュー UI の標準構成を構築します。Auto Scaling で ピーク時のみクラウド側に流す設計にします。
フェーズ 3: 継続最適化(月次運用)
月次でルーティング比率を再評価し、「LLM へ流れている文書のパターン」を 段 1 / 段 2 に組み込む継続改善ループを回します。これは DORA / SPACE / Core 4 ROI 受託 で扱った 継続改善の文書処理版です。
受託向け技術スタック標準セット
| レイヤ | 推奨技術 | 代替 |
|---|---|---|
| 決定的抽出 | unstructured + 正規表現 | 自前パーサ |
| 軽量モデル | LayoutLM / Donut | Qwen-VL-Local |
| GPU 環境 | g5.xlarge / GCP L4 | オンプレ GPU |
| クラウド LLM | Claude Sonnet / GPT-5.5 | Gemini 2.5 |
| キュー | SQS / Pub/Sub | Cloud Tasks |
| 可観測性 | OpenTelemetry + Grafana | Datadog |
| コスト管理 | Cost Explorer + 自前ダッシュボード | CloudHealth |
特に **「ルーティング比率を毎日ダッシュボード化」することで、「コスト異常 → ルーティングルール再設計」**のループを 数時間で回せます。
どの案件で Local-First が刺さるか
| 案件タイプ | Local-First の効果 |
|---|---|
| 月 10 万件以上の請求書処理 | 月 30〜70 万円の API コスト削減 |
| 金融の本人確認書類 | データを VPC 内に閉じられる |
| 製造業の図面処理 | 大量ページの一括処理が現実的 |
| 公共の申請書受付 | ピーク時のスケール対応 |
| 医療カルテのアノテーション | PHI を LLM に出さない設計 |
受託契約に書く 5 つの条項
| 条項 | 内容 | 顧客が確認すべきこと |
|---|---|---|
| ルーティング比率 SLA | 段 1 / 段 2 で処理する目標比率 | 実測との乖離許容範囲 |
| API コスト上限 | 月次 Budgets による自動停止 | 業務影響の責任分界 |
| データ持ち出し範囲 | クラウド LLM に送る文書種別 | 機密区分との整合 |
| モデル更新追随 | 軽量モデルの再評価頻度 | 評価工数の責任 |
| 継続改善範囲 | 月次最適化の作業内容 | 改善停止時のリスク |
価格モデル — Local-First 受託パッケージ
| プラン | 金額 | 対象 | 内容 |
|---|---|---|---|
| コスト診断 | 50 万円〜 | 2 週間 | 現状コスト分析 + 削減見積もり |
| Lite | 500 万円〜 | 8 週間 | ルーティング + 1 業務パイプライン |
| Standard | 1,500 万円〜 | 3 ヶ月 | 上記 + 軽量モデル運用 + ダッシュボード |
| Enterprise | 4,000 万円〜 | 6 ヶ月 | 上記 + 多業務 + 継続改善契約 |
ハマりやすい 4 つの落とし穴
落とし穴 1: 「LLM 一択でいい」と言われたまま見積もる
顧客は 「初期は LLM 一択」を望みがちですが、3 ヶ月後に コスト爆発で停止するパターンが頻発しています。最初から Local-First を提案することが、長期的に顧客の利益になります。
落とし穴 2: 軽量モデルの GPU コストを過小評価
g5.xlarge を 24 時間稼働させると、月 8〜10 万円かかります。スポット / オフピーク停止を含めて見積もることが必須です。
落とし穴 3: ルーティングルールをハードコード
ルールを コード内に直書きすると、業務変更のたびにデプロイが必要になります。ルールエンジン / 設定ファイルで外出しします。
落とし穴 4: 継続改善契約を入れずに納品
月次最適化なしで運用に入ると、3 〜 6 ヶ月でルーティング比率が劣化します。継続改善 Care プランをセットで提案することが必須です。
まとめ — 「全件 LLM」から「使い分け」へ
Local-First AI 推論は、「LLM を呼ばずに済む文書は呼ばない」という単純な発想で、API コスト 75% 削減を実現するパターンです。月 10 万件以上の文書処理案件で、標準アーキテクチャにすべき構成です。
弊社では コスト診断 / Lite / Standard / Enterprise の 4 段階で Local-First 文書処理受託パッケージを提供しています。「月額 LLM コストが想定の 3 倍を超えている」「全件 LLM を Local-First に切り替えたい」というご相談は お問い合わせフォーム からお気軽にどうぞ。