2026 年 5 月 10 日、Zenn で公開された 書籍の OCR に LLM を組み合わせる精度実測レポート は、追記計測値で Hybrid 構成 99.94% / NDL 単独でも 99.49% という、「文書 DX 受託の前提を変える」精度を示しました。
これまで弊社の文書 DX 受託案件でも、「OCR は 95% 止まりで、結局人間がチェックする工数が消えない」という声が大半でした。文字単位の誤読がゼロ近傍まで来たことで、書籍 / 帳票 / 契約書のデジタル化を完全自動化に近づける設計が、ようやく現実の選択肢になります。これは Netflix Model Lifecycle Graph に学ぶ MLOps ガバナンス で扱った 「AI を運用品質で測る」潮流の文書領域への展開とも位置づけられます。
なぜ OCR 単独では精度 95% で止まるのか
| 課題 | 現場での影響 |
|---|---|
| 縦書き和文 | 列方向の認識誤り |
| 全角・半角の混在 | ”1” と “1” の誤判定 |
| ルビ / 注釈 | 本文と混在して誤読 |
| 表組み / 図 | 構造を失った文字列出力 |
| 専門用語 | 学習辞書外でブレ |
これらは 「画像 → 文字」の単純パイプラインでは原理的に解けない問題群で、文脈理解が必要です。LLM はまさに 文脈で誤読を訂正する役割を担えます。
OCR × LLM ハイブリッドの 4 段構成
段階 1: ベース OCR で素のテキスト抽出
NDL OCR / Google Document AI / Azure Document Intelligence など、実績のあるベース OCR を使い、素のテキスト + バウンディングボックスを取得します。
段階 2: 構造復元(表・章・段落)
段組み・表・図キャプションを、ベース OCR の座標情報から 構造化 JSON / Markdown へ変換します。ここまでは 既存技術の組み合わせで十分です。
段階 3: LLM による文脈訂正
「OCR の結果 + 周辺コンテキスト」を LLM に渡し、誤読候補の訂正を依頼します。温度 0 + 短いプロンプトで、ハルシネーションを最小化します。
段階 4: 信頼度判定 + 人手レビューキュー
LLM が「自信なし」と返した箇所のみを、人手レビューキューに流します。これにより 完全自動化 + 例外のみ人手という運用が成立します。
受託で構築する 3 つの実装フェーズ
フェーズ 1: パイロット(4〜6 週間)
100〜500 ページを対象に、精度 / コスト / 処理時間を実測します。OCR エンジン選定とプロンプト設計の PoC を兼ねます。
フェーズ 2: パイプライン構築(8〜12 週間)
ストレージ(S3 / GCS)+ キュー(SQS / Pub/Sub)+ ワーカー(Lambda / Cloud Run)+ レビュー UI の標準構成を構築します。InfoQ の Local-First AI Inference パターン(次回記事 で詳述)を併用すると コストが大幅圧縮できます。
フェーズ 3: 運用引き渡し(4 週間)
監視・コスト管理・モデル更新追随の運用手順を顧客に引き渡します。これは 社内 MCP 完全ガイド で扱った MCP サーバー化と組み合わせると、業務側から自然言語で問い合わせできる UX を実現できます。
受託向け技術スタック標準セット
| レイヤ | 推奨技術 | 代替 |
|---|---|---|
| ベース OCR | Google Document AI | Azure Document Intelligence / NDL OCR |
| 構造復元 | unstructured / LayoutLM | 自前ルールエンジン |
| LLM 訂正 | Claude Sonnet / GPT-5.5 | Gemini 2.5 |
| キュー | SQS / Cloud Tasks | Cloud Run Jobs |
| ストレージ | S3 + Glacier 階層 | GCS Coldline |
| レビュー UI | Streamlit / Next.js | 顧客既存 BPM |
特に 「LLM 訂正を Claude / GPT-5.5 / Gemini 2.5 で並列に走らせ、多数決」にすると、さらに精度が 0.05〜0.1pt 上がるケースを確認しています。
業務領域別の適用パターン
| 業務 | 主な文書 | ハイブリッド適用効果 |
|---|---|---|
| 法務 | 契約書 / 規程 | 条文構造の保持 + 用語正規化 |
| 金融 | 申込書 / 明細 | 金額・口座番号の誤読ゼロ |
| 製造業 | 図面 / 仕様書 | 注釈・記号の文脈訂正 |
| 公共・自治体 | 古文書 / 議事録 | 縦書き和文の高精度復元 |
| 医療 | カルテ / 処方箋 | 専門用語辞書 + LLM 訂正 |
受託契約に書く 5 つの条項
| 条項 | 内容 | 顧客が確認すべきこと |
|---|---|---|
| 精度 SLA | 文字単位 / ページ単位の数値目標 | 測定基準と算出方法 |
| データ持ち出し | LLM への送信範囲とリージョン | 機密性レベル |
| 人手レビュー比率 | 想定比率と超過時の費用 | 業務側の体制 |
| モデル更新追随 | 精度低下時の再評価頻度 | 評価工数の責任分界 |
| 保管期間 | 中間データ / 学習データの削除 | コンプライアンス要件 |
価格モデル — 文書 DX 受託パッケージ
| プラン | 金額 | 対象 | 内容 |
|---|---|---|---|
| PoC | 80 万円〜 | 4 週間 | 500 ページの精度実測 + コスト見積もり |
| Lite | 500 万円〜 | 8 週間 | 月 1 万ページ規模のパイプライン |
| Standard | 1,500 万円〜 | 3 ヶ月 | 月 10 万ページ + レビュー UI + 業務統合 |
| Enterprise | 4,500 万円〜 | 6 ヶ月 | 月 100 万ページ + 多拠点 + 規制対応 |
ハマりやすい 4 つの落とし穴
落とし穴 1: 精度目標を「単一の数字」で握る
**「99% 以上」だけ握ると、「どの単位で 99%?」**で揉めます。文字単位 / 単語単位 / フィールド単位を分けて握ることが必須です。
落とし穴 2: LLM への送信データを全件 PII マスキングしない
医療 / 金融案件で、個人情報がそのまま LLM へ送信される事故が散発しています。マスキング層を必ず前段に入れます。
落とし穴 3: コスト試算で LLM トークン量を過小評価
ベース OCR より LLM 訂正のほうがコストが高いケースが大半です。LLM 呼び出し回数 × トークン量で 月額コストを試算します。これは Computer Use 45 倍コスト受託 で扱ったコスト爆発と同じ構造です。
落とし穴 4: 人手レビューキューを後付けで設計
「自動化したから人手は不要」という前提だと、LLM の自信なし部分が どこにも流れず業務が止まります。最初からレビュー UI を含めることが必須です。
まとめ — 「文字認識」から「文書理解」へ
OCR × LLM ハイブリッドは、「OCR は 95% で頭打ち」という長年の前提を **99.94%まで押し上げました。文書 DX 受託は、「単純な電子化」から 「文書を理解した上での業務統合」**へと、提供価値の次元が変わります。
弊社では PoC / Lite / Standard / Enterprise の 4 段階で 文書 DX 受託パッケージを提供しています。「書籍・帳票・契約書の高精度デジタル化」「OCR 単独の限界を超えたい」というご相談は お問い合わせフォーム からお気軽にどうぞ。