DeepSeek-V4 で組む「100万トークン × オンプレ」エンタープライズRAG受託設計 2026

「ChatGPT Enterprise を入れたいが、機密データを社外に出せない」「100 万トークンを使える LLM をオンプレで動かしたい」——金融・製造・公共系を中心に、こうした「LLM をクラウド API ではなく自社環境で動かしたい」相談が 2026 年に入って急増しています。背景には、DeepSeek が 100 万トークンのコンテキストを「エージェントが実用レベルで扱える」DeepSeek-V4 をリリースしたことがあります。重みがオープンソースで配布され、Web / API での利用に加えて自社 GPU 上での動作も可能になりました。

本記事では、DeepSeek-V4 を採用したエンタープライズ RAG 受託案件の設計指針と、既存 OpenAI / Anthropic API 構成からの段階移行ステップを整理します。

なぜ「100 万トークン × オンプレ」が今エンタープライズに効くのか

これまでオンプレ LLM の選択肢は、Llama / Qwen / 国産モデル（LLM-jp 等）が中心で、コンテキスト長は 32K〜128K が現実的でした。一方、エンタープライズ RAG の現場では次のような要件が頻繁に出ます。

要件	32K の場合	100 万トークンの場合
契約書 1 件丸ごと参照	チャンク分割必須	そのまま投入可
議事録 1 年分の横断分析	RAG パイプライン必須	全文埋め込み可能
既存コードベース全体の参照	関数単位で抽出	リポジトリ全体を一度に
過去ログの要約	バッチ事前処理必要	エージェントがその場で要約

DeepSeek-V4 はこのギャップを埋めるモデルとして登場しました。特に**「エージェントが実用レベルで使える」長文処理（位置エンコーディングや注意機構の最適化）が施されており、長いコンテキストを単に詰め込めるだけでなく、その内容を横断的に推論**できる点が他モデルとの違いです。

アーキテクチャ全体像 — オンプレ RAG の参照構成

弊社が受託案件で標準化している構成は次の 5 層です。

データソース層 — SharePoint / Confluence / 基幹 DB / ファイルサーバー
インジェスト層 — ドキュメントパース、メタデータ抽出、PII マスキング
ベクトル / 検索層 — pgvector / Weaviate / Elastic、ハイブリッド検索
LLM 層（DeepSeek-V4 オンプレ） — vLLM / TensorRT-LLM、GPU クラスタ
エージェント / UI 層 — 社内チャット、Slack、業務 Web UI

注目すべきは、100 万トークン対応によって第 3 層（検索）と第 4 層（LLM）の責任分界が変わることです。従来は「検索で 5 件に絞り込み、LLM に投げる」が定番でしたが、100 万トークンを使えるなら「検索で 100 件に広く拾い、LLM に判断を任せる」設計が選択肢に入ります。これにより検索チューニングのコストが激減します。

受託で押さえる 5 つの設計指針

1. GPU クラスタのサイジングを「ピーク同時接続数」で見積もる

DeepSeek-V4 の本番運用は、「平均同時接続数」ではなく「ピーク同時接続数」で見積もります。LLM はリクエスト中ずっと GPU メモリを保持するため、同時 N リクエストを捌くには N 倍の VRAM が必要です。

同時接続	推奨 GPU 構成（目安）
〜10	A100 80GB × 2
10〜30	H100 80GB × 4
30〜100	H100 × 8（マルチノード）

vLLM の連続バッチング（continuous batching）を有効化すると体感スループットは 3〜5 倍に上がります。

2. 100 万トークンを「常に埋める」設計は禁物

100 万トークンを毎回フルに使うと、1 リクエストあたりのレイテンシと GPU 占有時間が爆発します。受託案件では次のレイヤリングを推奨します。

通常クエリ: 32K 以内
長文要約クエリ: 128K まで
大規模横断分析: 100 万トークン（明示的なジョブとしてキューイング）

「100 万を使う必要があるか」をアプリ側で判定し、ユーザーに「処理に数分かかります」と表示してから走らせる UX が現実解です。

3. PII マスキングは「インジェスト時」と「LLM 渡し前」の二段で

LLM は確率的にしか PII を保護しません。ベクトル化前と LLM 投入前の 二段階でマスキングします。

def ingest_document(doc: Document):
    masked_text = pii_masker.mask(doc.text)  # 第1段
    chunks = chunker.split(masked_text)
    for chunk in chunks:
        vector = embedder.embed(chunk)
        vector_store.upsert(chunk, vector, metadata=doc.metadata)

def query_llm(question: str, retrieved_chunks: list[str]):
    safe_chunks = [pii_masker.mask(c) for c in retrieved_chunks]  # 第2段
    return llm.generate(prompt=build_prompt(question, safe_chunks))

二段で重複しているように見えますが、後段は検索後に動的に判定が変わる PII（例: ユーザーの権限ロールに応じてマスキング強度を変える）に対応するために必要です。

4. 監査ログは「質問 / 検索結果 / LLM 出力 / 引用元」の 4 階層

エンタープライズ要件では、回答の根拠を引用元のドキュメント ID まで追えるよう構造化ログを残します。

- conversation_id ─┬─ question
                   ├─ retrieval (chunk_ids[], scores[])
                   ├─ llm_call (prompt_tokens, output_tokens)
                   └─ answer (citations[chunk_id, doc_id])

「この回答はなぜこの結論になったのか」を後追いできる構造にすることが、社内利用を超えて顧客向けに使う段階の必須条件です。

5. 評価セットは「事実性 / 機密保持 / 拒否動作」の 3 軸で

オンプレ LLM の評価は、回答品質だけでなく次の 3 軸で測ります。

評価軸	チェック内容
事実性	引用元と回答内容が一致しているか
機密保持	マスキング対象が漏れていないか
拒否動作	答えるべきでない質問を拒否しているか

CI に組み込み、モデルアップデート時に必ず回します。

既存 OpenAI / Anthropic 構成からの段階移行

「すでに ChatGPT Enterprise / Claude for Work を運用している」案件では、いきなり全面切り替えではなくハイブリッド運用が現実的です。

Step 1: ユースケース仕分け

クラウド API 維持: 機密性が低く、レイテンシが重要なもの（一般 Q&A、ドラフト作成）
DeepSeek-V4 オンプレ: 機密データを含む RAG、長文契約書解析、ソースコード分析

Step 2: 並行運用フェーズ（3〜6 ヶ月）

両方を同じインターフェース（自社チャット UI）から呼べるようにし、ユースケース別にルーティング。

Step 3: 業務測定とコスト比較

3 ヶ月運用したコスト（API 課金 vs GPU 償却）と回答品質を比較。

Step 4: 配分の最適化

業務ごとに「クラウド / オンプレ」の最適配分を決定し、ガバナンス文書に反映。

弊社が LLM-jp-4 でのプライベート LLM 構築ガイドで整理した「オンプレ LLM の運用設計」と組み合わせると、DeepSeek-V4 への置き換え検討もスムーズです。

ライセンス・地政学的な留意点

DeepSeek の利用にあたっては、受託案件の初期ヒアリングで以下を必ず確認します。

モデル重みのライセンス条項: 商用利用範囲、改変・再配布の可否
トレーニングデータの来歴: 規制業界では、データ来歴の証明が必要な場合あり
地政学的リスク: モデル提供元の所在地に対するクライアントの内規
代替モデルへの切替可能性: 単一モデルロックインを避けた抽象化レイヤー

特に大手金融・公共系では、モデルそのものより「将来別モデルに差し替えられる構成か」が問われます。受託では初期から モデル抽象化レイヤー を入れ、Llama / Qwen / 国産モデルにも入れ替え可能な構造にしておきます。

エンタープライズ MCP ガバナンス設計で整理した「ベンダー選定基準」の考え方は、LLM ベンダー選定にもそのまま応用できます。

まとめ

DeepSeek-V4 の登場で、「100 万トークン × オンプレ」の選択肢が現実的になりました。エンタープライズ RAG 受託で押さえる 5 点は次の通りです。

GPU サイジングはピーク同時接続数で
100 万トークンは明示的なジョブとして扱う
PII マスキングはインジェスト時と LLM 渡し前の二段
監査ログは 4 階層で構造化
評価セットは事実性 / 機密保持 / 拒否動作の 3 軸

弊社では DeepSeek-V4 を含むオープンソース LLM を採用したエンタープライズ RAG 案件を進めています。「機密データの制約でクラウド LLM が使えない」「100 万トークン級の長文解析が必要」案件があれば、お気軽にご相談ください。

Google Workspace 会議室を Outlook から予約する方法【2026 年新機能】

GPT-5.5 公開 ─ 受託案件で採用判断するときの 4 つの観点

Chrome の AI Mode が変える検索流入 ─ 受託で組む対応戦略

DeepSeek-V4 で組む「100万トークン × オンプレ」エンタープライズRAG受託設計 2026

なぜ「100 万トークン × オンプレ」が今エンタープライズに効くのか

アーキテクチャ全体像 — オンプレ RAG の参照構成