“RAG の最適化手法が多すぎて迷子になる”問題
2026年4月、Zenn Trending に「RAG の最適化手法が多すぎて迷子になったので、整理したら全体像が見えた」という記事が上がり、多くの開発者から共感を集めました。2023年の RAG 黎明期には「ベクトル検索 + LLM」という単純な構図で済んでいたのが、2026年にはハイブリッド検索・リランキング・Query Rewriting・HyDE・Corrective RAG・Adaptive RAG・Parametric RAG・Agentic Retrieval と、最適化レイヤーが10以上に膨れ上がっています。
本記事では、乱立する RAG 最適化手法を 「事前処理 → 検索中 → 事後処理 → 評価」 の4レイヤーに整理し、プロジェクト規模・精度要件に応じた選び方を示すカタログとしてまとめます。
RAG の前提知識として MCP完全ガイド も合わせて読むと、外部データ連携の全体像が理解しやすくなります。
レイヤー1: 事前処理(Pre-Retrieval)
ユーザークエリが検索にかかる前にどう加工するか、という層です。RAG の性能差の半分以上はこの層で決まる と言っても過言ではありません。
チャンキング戦略
RAG で最も軽視されがちで、最もインパクトが大きいのがチャンク分割です。
| 戦略 | 説明 | 適するコンテンツ |
|---|---|---|
| 固定長チャンク | 一定トークン数で機械的に分割 | 均質な FAQ、マニュアル |
| セマンティックチャンク | 意味的まとまりで分割 | 技術ドキュメント、ブログ記事 |
| 階層チャンク | 章→節→段落で多段に保持 | 長い契約書・論文 |
| 重複付きスライディング | 境界で情報が切れないよう重複 | プログラムソースコード |
経験則として チャンクサイズは 200〜800 トークン、オーバーラップは 10〜20% が出発点として使えます。
Query Rewriting(クエリ書き換え)
ユーザーが入力した質問をそのままベクトル化するのではなく、LLM でより検索しやすい形に書き換える 手法です。「先月のあれ、結局どうなった?」のような文脈依存クエリを、「2026年3月のプロジェクトXの進捗結果」のように具体化します。
HyDE(Hypothetical Document Embeddings)
クエリを LLM に渡して 「仮想的な理想回答」を生成し、その回答文のベクトルで検索する 手法。質問と回答では語彙が異なることが多く、回答側でベクトル化した方が近い文書にヒットしやすいという原理です。
Query Decomposition(クエリ分解)
複合質問(「AとBの違いを比較して、どちらを導入すべきか?」)を複数のサブクエリに分解し、それぞれで検索した結果を統合する手法。Agentic RAG の基盤技術にもなっています。
レイヤー2: 検索中(Retrieval)
ハイブリッド検索
2026年のデファクトスタンダードは キーワード検索(BM25 など)+ 意味検索(ベクトル) の並列実行です。キーワード検索は固有名詞や数字の完全一致に強く、意味検索は言い換えに強いため、両者を組み合わせると単独より 10〜30% 精度が上がる のが一般的な結果です。
# pseudo: ハイブリッド検索の骨格
keyword_results = bm25_search(query, top_k=20)
vector_results = vector_search(query_embedding, top_k=20)
merged = rrf_merge(keyword_results, vector_results) # Reciprocal Rank Fusion
ベクトルフィルタリング
メタデータによる絞り込み(例: category="技術"、date > 2026-01-01)を ベクトル検索の前段で適用 するのが2026年の標準パターン。検索対象を絞ることで、ノイズも計算コストも同時に削減できます。
Multi-Vector Retrieval
一つのチャンクに対して 「要約ベクトル」「原文ベクトル」「子チャンクベクトル」 など複数のベクトルを保持し、目的に応じて使い分ける手法。複雑なドキュメントを扱うプロジェクトで精度が大きく向上します。
レイヤー3: 事後処理(Post-Retrieval)
リランキング
検索結果の上位 20〜50 件を 専用リランカー(Cohere Rerank、BGE Reranker など) で再スコアリングし、上位 5〜10 件に絞る手法。計算コストはかかりますが、Top-k 精度が劇的に上がる ため、エンタープライズ RAG ではほぼ必須になっています。
コンテキスト圧縮
取得したチャンクから 関係のない文章を除去 してから LLM に渡す手法。LLM のコンテキスト長制約を回避できるうえ、ノイズが減るので回答品質も向上します。
Corrective RAG(CRAG)
取得した文書の品質を軽量分類器でスコアリング し、低品質なら Web 検索などのフォールバックを自動起動する設計です。2025年後半に提案されたアーキテクチャで、2026年には本番運用の事例が増えています。
Adaptive RAG
クエリの複雑さに応じて 検索戦略自体を動的に切り替える 手法。「これは単純な FAQ → シンプルな検索」「これは複合質問 → クエリ分解 → 並列検索 → 統合」のように、エージェント的に判断します。
レイヤー4: 評価とモニタリング
検索評価と生成評価を分離する
RAG 失敗の原因は 「検索で正解チャンクを拾えなかった」 と 「正解チャンクはあったが LLM が無視した / 誤解釈した」 に大別されます。両者を分離して評価しないと改善サイクルが回りません。
| 評価対象 | 代表指標 | 用途 |
|---|---|---|
| 検索 | Recall@k, MRR, nDCG | 検索層のチューニング |
| 生成 | Faithfulness, Answer Relevance | プロンプト・LLM 選定 |
| タスク | 業務 KPI、ユーザー満足度 | 全体の方向性判断 |
継続的なエラー分析
週次で 失敗事例 10〜30 件をサンプリングしてレビュー する運用は、RAG の長期改善に必須です。チャンク境界問題・埋め込み品質問題・検索戦略の限界がこの工程で可視化されます。評価方法の設計思想については AIベンチマークは壊れた も参考にしてください。
2026年の新潮流: Parametric RAG と Agentic Retrieval
Parametric RAG
外部検索の代わりに、知識を直接モデルパラメータに埋め込む というラディカルなアプローチ。LoRA アダプタなどで特定ドメインの知識を注入し、推論時の検索オーバーヘッドをゼロに近づけます。静的な知識ベース(社内規程など)と相性が良い反面、更新コストは高くなります。
Agentic Retrieval
LLM が 自律的に「どの情報源を使うか」「何回検索するか」「いつ止めるか」を判断する 検索パイプライン。シンプルな RAG から一歩進んで、検索自体を計画(Plan)する という考え方です。
プロジェクト規模別の導入マップ
全部を一度に入れようとすると確実に失敗します。段階的に導入するロードマップを示します。
| フェーズ | 規模 | 実装すべき最適化 |
|---|---|---|
| Phase 1(PoC) | 〜1万文書 | セマンティックチャンク + 単純ベクトル検索 + Top-5 |
| Phase 2(パイロット) | 〜10万文書 | ハイブリッド検索 + メタデータフィルタ + リランキング |
| Phase 3(本番) | 〜100万文書 | Query Rewriting + Multi-Vector + コンテキスト圧縮 + 評価基盤 |
| Phase 4(最適化) | 100万〜 | Corrective / Adaptive RAG + Agentic Retrieval + 継続モニタリング |
まとめ — 2026年の RAG は”組み合わせ”の時代
RAG はもう「ベクトル検索 + LLM」だけでは語れません。2026年の勝ちパターンは 「事前処理 × 検索 × 事後処理 × 評価」の4レイヤーで適切な組み合わせを選ぶ こと。そして、その組み合わせは 自社のデータ規模・精度要件・更新頻度で決まる のが鉄則です。
まず Phase 1 の最小構成で動かし、失敗事例を集めながらレイヤーごとに強化していくアプローチが、最も事故が少なく、最も早くビジネス価値を生みます。
関連記事: ハーネスエンジニアリング入門 / MCP完全ガイド
参考ソース
- RAG systems: Best practices to master evaluation — Google Cloud Blog
- Retrieval Augmented Generation (RAG) for LLMs — Prompt Engineering Guide
- RAG Architecture: Retrieval-Augmented Generation Patterns for Enterprise AI — Calmops
- Retrieval-Augmented Generation: A Practical Guide — Comet
- Best Practices in Retrieval Augmented Generation — Gradient Flow