DeepSeek-V4 で組む「100万トークン × オンプレ」エンタープライズRAG受託設計 2026 | GH Media
URLがコピーされました

DeepSeek-V4 で組む「100万トークン × オンプレ」エンタープライズRAG受託設計 2026

URLがコピーされました
DeepSeek-V4 で組む「100万トークン × オンプレ」エンタープライズRAG受託設計 2026

「ChatGPT Enterprise を入れたいが、機密データを社外に出せない」「100 万トークンを使える LLM をオンプレで動かしたい」——金融・製造・公共系を中心に、こうした「LLM をクラウド API ではなく自社環境で動かしたい」相談が 2026 年に入って急増しています。背景には、DeepSeek が 100 万トークンのコンテキストを「エージェントが実用レベルで扱える」DeepSeek-V4 をリリースしたことがあります。重みがオープンソースで配布され、Web / API での利用に加えて自社 GPU 上での動作も可能になりました。

本記事では、DeepSeek-V4 を採用したエンタープライズ RAG 受託案件の設計指針と、既存 OpenAI / Anthropic API 構成からの段階移行ステップを整理します。

なぜ「100 万トークン × オンプレ」が今エンタープライズに効くのか

これまでオンプレ LLM の選択肢は、Llama / Qwen / 国産モデル(LLM-jp 等)が中心で、コンテキスト長は 32K〜128K が現実的でした。一方、エンタープライズ RAG の現場では次のような要件が頻繁に出ます。

要件32K の場合100 万トークンの場合
契約書 1 件丸ごと参照チャンク分割必須そのまま投入可
議事録 1 年分の横断分析RAG パイプライン必須全文埋め込み可能
既存コードベース全体の参照関数単位で抽出リポジトリ全体を一度に
過去ログの要約バッチ事前処理必要エージェントがその場で要約

DeepSeek-V4 はこのギャップを埋めるモデルとして登場しました。特に**「エージェントが実用レベルで使える」長文処理(位置エンコーディングや注意機構の最適化)が施されており、長いコンテキストを単に詰め込めるだけでなく、その内容を横断的に推論**できる点が他モデルとの違いです。

アーキテクチャ全体像 — オンプレ RAG の参照構成

弊社が受託案件で標準化している構成は次の 5 層です。

  1. データソース層 — SharePoint / Confluence / 基幹 DB / ファイルサーバー
  2. インジェスト層 — ドキュメントパース、メタデータ抽出、PII マスキング
  3. ベクトル / 検索層 — pgvector / Weaviate / Elastic、ハイブリッド検索
  4. LLM 層(DeepSeek-V4 オンプレ) — vLLM / TensorRT-LLM、GPU クラスタ
  5. エージェント / UI 層 — 社内チャット、Slack、業務 Web UI

注目すべきは、100 万トークン対応によって第 3 層(検索)と第 4 層(LLM)の責任分界が変わることです。従来は「検索で 5 件に絞り込み、LLM に投げる」が定番でしたが、100 万トークンを使えるなら「検索で 100 件に広く拾い、LLM に判断を任せる」設計が選択肢に入ります。これにより検索チューニングのコストが激減します。

受託で押さえる 5 つの設計指針

1. GPU クラスタのサイジングを「ピーク同時接続数」で見積もる

DeepSeek-V4 の本番運用は、「平均同時接続数」ではなく「ピーク同時接続数」で見積もります。LLM はリクエスト中ずっと GPU メモリを保持するため、同時 N リクエストを捌くには N 倍の VRAM が必要です。

同時接続推奨 GPU 構成(目安)
〜10A100 80GB × 2
10〜30H100 80GB × 4
30〜100H100 × 8(マルチノード)

vLLM の連続バッチング(continuous batching)を有効化すると体感スループットは 3〜5 倍に上がります。

2. 100 万トークンを「常に埋める」設計は禁物

100 万トークンを毎回フルに使うと、1 リクエストあたりのレイテンシと GPU 占有時間が爆発します。受託案件では次のレイヤリングを推奨します。

  • 通常クエリ: 32K 以内
  • 長文要約クエリ: 128K まで
  • 大規模横断分析: 100 万トークン(明示的なジョブとしてキューイング)

100 万を使う必要があるか」をアプリ側で判定し、ユーザーに「処理に数分かかります」と表示してから走らせる UX が現実解です。

3. PII マスキングは「インジェスト時」と「LLM 渡し前」の二段で

LLM は確率的にしか PII を保護しません。ベクトル化前と LLM 投入前の 二段階でマスキングします。

def ingest_document(doc: Document):
    masked_text = pii_masker.mask(doc.text)  # 第1段
    chunks = chunker.split(masked_text)
    for chunk in chunks:
        vector = embedder.embed(chunk)
        vector_store.upsert(chunk, vector, metadata=doc.metadata)

def query_llm(question: str, retrieved_chunks: list[str]):
    safe_chunks = [pii_masker.mask(c) for c in retrieved_chunks]  # 第2段
    return llm.generate(prompt=build_prompt(question, safe_chunks))

二段で重複しているように見えますが、後段は検索後に動的に判定が変わる PII(例: ユーザーの権限ロールに応じてマスキング強度を変える)に対応するために必要です。

4. 監査ログは「質問 / 検索結果 / LLM 出力 / 引用元」の 4 階層

エンタープライズ要件では、回答の根拠を引用元のドキュメント ID まで追えるよう構造化ログを残します。

- conversation_id ─┬─ question
                   ├─ retrieval (chunk_ids[], scores[])
                   ├─ llm_call (prompt_tokens, output_tokens)
                   └─ answer (citations[chunk_id, doc_id])

この回答はなぜこの結論になったのか」を後追いできる構造にすることが、社内利用を超えて顧客向けに使う段階の必須条件です。

5. 評価セットは「事実性 / 機密保持 / 拒否動作」の 3 軸で

オンプレ LLM の評価は、回答品質だけでなく次の 3 軸で測ります。

評価軸チェック内容
事実性引用元と回答内容が一致しているか
機密保持マスキング対象が漏れていないか
拒否動作答えるべきでない質問を拒否しているか

CI に組み込み、モデルアップデート時に必ず回します。

既存 OpenAI / Anthropic 構成からの段階移行

「すでに ChatGPT Enterprise / Claude for Work を運用している」案件では、いきなり全面切り替えではなくハイブリッド運用が現実的です。

Step 1: ユースケース仕分け

  • クラウド API 維持: 機密性が低く、レイテンシが重要なもの(一般 Q&A、ドラフト作成)
  • DeepSeek-V4 オンプレ: 機密データを含む RAG、長文契約書解析、ソースコード分析

Step 2: 並行運用フェーズ(3〜6 ヶ月)

両方を同じインターフェース(自社チャット UI)から呼べるようにし、ユースケース別にルーティング。

Step 3: 業務測定とコスト比較

3 ヶ月運用したコスト(API 課金 vs GPU 償却)と回答品質を比較。

Step 4: 配分の最適化

業務ごとに「クラウド / オンプレ」の最適配分を決定し、ガバナンス文書に反映。

弊社が LLM-jp-4 でのプライベート LLM 構築ガイド で整理した「オンプレ LLM の運用設計」と組み合わせると、DeepSeek-V4 への置き換え検討もスムーズです。

ライセンス・地政学的な留意点

DeepSeek の利用にあたっては、受託案件の初期ヒアリングで以下を必ず確認します。

  • モデル重みのライセンス条項: 商用利用範囲、改変・再配布の可否
  • トレーニングデータの来歴: 規制業界では、データ来歴の証明が必要な場合あり
  • 地政学的リスク: モデル提供元の所在地に対するクライアントの内規
  • 代替モデルへの切替可能性: 単一モデルロックインを避けた抽象化レイヤー

特に大手金融・公共系では、モデルそのものより「将来別モデルに差し替えられる構成か」が問われます。受託では初期から モデル抽象化レイヤー を入れ、Llama / Qwen / 国産モデルにも入れ替え可能な構造にしておきます。

エンタープライズ MCP ガバナンス設計 で整理した「ベンダー選定基準」の考え方は、LLM ベンダー選定にもそのまま応用できます。

まとめ

DeepSeek-V4 の登場で、「100 万トークン × オンプレ」の選択肢が現実的になりました。エンタープライズ RAG 受託で押さえる 5 点は次の通りです。

  1. GPU サイジングはピーク同時接続数で
  2. 100 万トークンは明示的なジョブとして扱う
  3. PII マスキングはインジェスト時と LLM 渡し前の二段
  4. 監査ログは 4 階層で構造化
  5. 評価セットは事実性 / 機密保持 / 拒否動作の 3 軸

弊社では DeepSeek-V4 を含むオープンソース LLM を採用したエンタープライズ RAG 案件を進めています。「機密データの制約でクラウド LLM が使えない」「100 万トークン級の長文解析が必要」案件があれば、お気軽にご相談ください。

URLがコピーされました

グリームハブ株式会社は、変化の激しい時代において、アイデアを形にし、人がもっと自由に、もっと創造的に生きられる世界を目指しています。

記事を書いた人

鈴木 翔

鈴木 翔

技術の可能性に魅了され、学生時代からプログラミングとデジタルアートの分野に深い関心を持つ

関連記事