マルチモーダル AI × MCP で再構築する顧客接点 — 受託で組む次世代カスタマーサポート設計 2026 | GH Media
URLがコピーされました

マルチモーダル AI × MCP で再構築する顧客接点 — 受託で組む次世代カスタマーサポート設計 2026

URLがコピーされました
マルチモーダル AI × MCP で再構築する顧客接点 — 受託で組む次世代カスタマーサポート設計 2026

「写真を 1 枚送るだけで保証修理を申し込めるようにできないか」「コールセンターの一次対応を AI に任せたい」——4 月以降、製造・小売・保険といった BtoC 業種から、こうした問い合わせが増えています。背景には、Claude Sonnet 4.6 / Gemini 2 / GPT-5.4 系列がマルチモーダル能力を本格的に獲得し、画像・音声・動画を一発で扱えるようになったことがあります。

そこに MCP の Linux Foundation 移管 で標準化された業務 API 接続が組み合わさり、「写真診断 → 修理判定 → CRM 起票 → 配送手配 → 顧客通知」を一気通貫で走らせるカスタマーサポートが、ようやく PoC を超えて本番運用できるフェーズに入りました。本記事は、その受託設計パターンの整理です。

なぜ今までのチャットボットでは足りなかったか

これまでのカスタマーサポート AI は、3 つの限界を抱えていました。

  1. テキスト一本足打法:写真や音声で説明するほうが速い問い合わせを文字に翻訳させていた
  2. 基幹システムから切り離されていた:FAQ には答えられても、注文・配送・請求にアクセスできなかった
  3. エスカレーション設計が雑:「分からない」と言うか、人間に丸投げするかの二択

マルチモーダル AI と MCP の組み合わせで、この 3 つが同時に解けます。私たちが マルチモーダル埋め込みリランカーの記事 で書いた「画像と文書を横断する検索」は、ここにつながる伏線でもあります。

受託で設計する標準アーキテクチャ

コンポーネント構成

レイヤー役割技術選定の目安
受付チャネルLINE / Web チャット / 電話(音声→テキスト)LINE Messaging API / Twilio
マルチモーダル理解画像・音声を解釈し意図を抽出Claude Sonnet 4.6 / Gemini 2
MCP ツール群基幹システム呼び出し自社 MCP サーバー + 公式コネクタ
HITL高リスク操作の人間承認Slack 通知 + 承認 UI
観測・分析会話品質・解決率の測定Langfuse / Datadog

処理フロー(保証修理の例)

[1] 顧客が LINE で故障した製品の写真 + 「動かなくなった」を送信
[2] マルチモーダル AI が
    - 製品モデル特定(写真)
    - 故障モード推定(写真+テキスト)
    - 顧客特定(LINE ID → CRM 照合 / MCP)
[3] MCP 経由で
    - 保証期間チェック
    - 修理可否の判定
    - 在庫照会
[4] HITL(金額 1 万円超 / 例外的判定 → オペレーター承認)
[5] 承認後、配送業者 API で集荷予約 → 顧客に予約番号通知

5 ステップのうち、[4] の HITL を最初から組み込むのが、本番運用に乗せる最大のコツです。

コスト試算(月 1 万件規模)

実装担当の目線で、月 1 万件処理するシステムのトークンコストを概算します。

項目単位月間
マルチモーダル推論(写真 1 枚 + 会話 5 ターン)8K トークン × 1 万件8000 万トークン
MCP 呼び出し(平均 3 ツール / セッション)2K × 3 万回6000 万トークン
HITL 用要約生成(10% 発生)1K × 1000 件100 万トークン
合計約 1.4 億トークン

Claude Sonnet 4.6(仮に入力 $3/1M、出力 $15/1M、入力比 70%)で試算すると、月額 $1,500 前後(約 22 万円)。人間オペレーター 1〜2 名分の人件費を遥かに下回ります

ただしマルチモーダル推論は画像枚数に応じて指数関数的に膨らむため、画像はリサイズ・1 セッション最大 3 枚などの上限を設計に組み込みます。

PII / 個人情報の取り扱い

カスタマーサポートは個人情報の温床です。最低限、次の 3 つを設計に必ず入れます。

  1. 入力時マスキング:受付チャネルから AI に渡す前に、電話番号・住所・クレカ番号を一時 ID に置換
  2. AI ベンダーへの非送信フィールド指定:マスキングしきれない PII はベンダー側のオプトアウト機能を使う
  3. 監査ログの暗号化保管:会話ログは AES-256 + アクセス制御で 7 年保管(業種により異なる)

Cloudflare AI Labyrinth の記事 でも触れた通り、AI に渡る情報の境界設計は、年々厳しく問われるようになっています。

受託案件の型と規模感

案件の型期間単価帯
PoC(1 ユースケース)6〜8 週間300〜600 万円
本番システム構築(3〜5 ユースケース)4〜6 ヶ月1,500〜4,000 万円
運用伴走(月額)月額60〜180 万円
マルチモーダル MCP サーバー追加単発 / 4〜6 週間200〜500 万円

特に運用伴走の月額契約が成立しやすいのは、新モデル登場のたびに精度・コスト・対応範囲を見直す必要があるためです。

まとめ — 顧客接点は「写真を送る」が標準になる

マルチモーダル AI と MCP は、別々に語られがちですが、カスタマーサポート文脈で組み合わせると相乗効果が生まれます。「写真 1 枚で全部終わる」という顧客体験は、もはや先進事例ではなく、業界標準への移行期に入っています。

弊社では、マルチモーダル AI × MCP を活用したカスタマーサポート基盤の設計・PoC・本番構築・運用伴走をワンストップで提供しています。「LINE 一次対応を AI 化したい」「写真診断機能を組み込みたい」という相談は、お問い合わせフォーム からお気軽にどうぞ。

URLがコピーされました

グリームハブ株式会社は、変化の激しい時代において、アイデアを形にし、人がもっと自由に、もっと創造的に生きられる世界を目指しています。

記事を書いた人

鈴木 翔

鈴木 翔

技術の可能性に魅了され、学生時代からプログラミングとデジタルアートの分野に深い関心を持つ

関連記事