2026 年 4 月後半、Zenn Trending に 「セキュリティ診断、AIに全部やらせたら月$0.5で回せるようになった話💰」 が長期ランクインしました。月額 0.5 ドルという極限のコスト構造で、SAST / DAST / 依存ライブラリスキャン / 設定ミス検知を AI に統合実行させる手法は、セキュリティ診断の受託サービス化という観点で大きなインパクトがあります。
これまで脆弱性診断は **「年 1 回の高額外注」の世界でしたが、AI で安価に毎日回せるなら、「月額数万円〜数十万円のサブスクリプション診断」**として中小企業に提供できる余地が一気に広がります。本記事では、AI セキュリティ診断を受託サービスとしてパッケージ化するための設計と価格戦略を整理します。
なぜ「AI で診断」が現実解になったのか
セキュリティ診断を AI に任せる試みは 2024 年からありましたが、当時は 「誤検知が多すぎて、結局人がトリアージするので工数が減らない」問題で実用化が遠のいていました。2026 年に状況が変わったのは次の 3 要因です。
| 要因 | 2026 年の変化 | 実務インパクト |
|---|---|---|
| 推論コストの劇的低下 | DeepSeek-V4 / GPT-5.5 mini で 1 リクエスト数円 | 毎日の全コードベーススキャンが現実的に |
| ツール呼び出し精度向上 | semgrep / trivy / OSV.dev との統合実行が安定 | ”AI が既存ツールを使い分ける” が定着 |
| 評価ループの定着 | promptfoo / 自前評価で誤検知率を機械測定 | 誤検知率を 5% 以下に維持できる |
特に 「AI が既存の SAST / DAST ツールを使い分ける」というアーキテクチャは、これまで “並列で動かすだけ” だった専門ツールを 「文脈に応じて呼び分けるオーケストレーター」として AI が機能する形で、診断品質と速度を両立させる転換点でした。
これは AI エージェント本番DB削除ガードレール で扱った “AI が既存ツールに頼る” 思想と同方向で、AI 単体でゼロから判断するより、「成熟したルールベースツール + AI のトリアージ」が現実的に強いアーキテクチャです。
AI セキュリティ診断の標準アーキテクチャ
弊社で受託サービス化する際の標準アーキテクチャです。
[Daily Trigger(cron / GitHub Actions)]
└ 毎日 03:00 JST に全プロジェクトを診断
[Orchestrator AI(Claude / GPT)]
├ Step 1: コードベース把握(言語・フレームワーク・依存)
├ Step 2: 適切なツール選択
│ ├ JavaScript/TypeScript → semgrep + npm audit + Snyk
│ ├ Python → bandit + pip-audit + safety
│ ├ Go → gosec + govulncheck
│ └ コンテナ → trivy + dockle
├ Step 3: ツール実行 + 結果集約
├ Step 4: 誤検知トリアージ(コンテキスト判定)
└ Step 5: 重要度 H/M/L 別レポート生成
[Reviewer AI(同一 or 別モデル)]
└ Step 6: トリアージ結果のクロスチェック
[Notification]
├ Critical → Slack #security-critical(即時)
├ High → Slack #security-high(日次サマリー)
└ Medium/Low → 月次レポートのみ
[Storage]
└ 診断履歴 + プロンプト履歴を S3 / R2 に保管
肝は Step 4 のトリアージです。SAST ツールは eval() の使用を一律警告しますが、テンプレートエンジン内の安全な使用や、コメントアウトされた古いコードへの誤検知が混じります。AI が 「呼び出し文脈・周辺コード・テストコード」を読んで、誤検知をフィルタする役割を担います。
何を AI に任せ、何を人に残すか
受託サービスとしてパッケージ化する際の 役割分担です。「AI に全部やらせる」と “誰も責任を取らない診断” になり、提供価値が下がります。
| 工程 | AI が担う | 人(弊社)が担う | 顧客が担う |
|---|---|---|---|
| 日次コードスキャン | ✅ 完全自動 | 設定・チューニング | - |
| 誤検知トリアージ | ✅ 1 次フィルタ | 微妙な判断のレビュー | - |
| 重要度判定 | ✅ 提案 | 最終承認 | - |
| 修正パッチ提案 | ✅ Pull Request 自動生成 | レビュー | マージ判断 |
| 経営報告 | ✅ ドラフト生成 | 仕上げ + プレゼン | 受領 |
| インシデント対応 | アラート発火のみ | 一次対応指揮 | 顧客側初動 |
| ペネトレーションテスト | - | 認定資格者が手動実施 | 立ち会い |
| 法令・契約レビュー | - | 弁護士・専門家連携 | 経営判断 |
特に 修正パッチ提案を AI が自動 PR で出す設計は、運用負荷を劇的に下げます。Dependabot / Renovate と同居させ、「依存ライブラリの脆弱性 → AI が修正 PR → CI 通過 → 顧客がマージ」の自動ループを作るのが、受託の継続収益を支える最大の仕組みです。
誤検知の処理 — “受託品質” のキモ
セキュリティ診断の受託で、顧客が最も嫌うのは 「狼少年的アラート」です。Slack に毎日 30 件のアラートが流れてきて、結局誰も見なくなる、という状態を防ぐための工夫を整理します。
| 工夫 | 内容 | 効果 |
|---|---|---|
| ベースライン管理 | 既知の “受容済み” 脆弱性を記録、再アラートしない | アラート量が 5〜10 分の 1 に |
| 重要度別ルーティング | Critical のみ即時、それ以外はサマリー | 集中阻害を最小化 |
| 文脈付きアラート | ”なぜ問題か / どう直すか / 似た事例” を必ず添付 | アクション率向上 |
| 月次クロージング | 解消・受容・延期を月次で必ず棚卸し | 蓄積する未解決を防ぐ |
| AI 説明品質の評価 | 月次で説明文の質を人が抜き打ちレビュー | ”それっぽいが間違い” の混入防止 |
特に ベースライン管理は、Detect-Secrets や semgrep の --baseline 機能を活用し、既知の受容済み警告を再通知しない設計にします。これにより、Slack 通知量が 1/10 以下に圧縮できるケースが多いです。
これは Vercel Open Agents による受託保守 で扱った “夜間バッチ AI” の設計思想と同方向で、AI を “常時ノイジーに通知させる” のではなく、“重要なものだけ人に見せる” フィルタとして機能させるのが受託品質の決め手です。
サービス価格設計 — 月額モデル 3 段階
AI セキュリティ診断を受託サービスとしてパッケージ化する際の価格設計です。
| プラン | 月額 | 対象 | 内容 |
|---|---|---|---|
| Starter | 5〜10 万円/月 | 単一リポジトリ、SaaS / Web | 日次 SAST + 依存ライブラリ + 月次レポート |
| Standard | 20〜40 万円/月 | 複数リポジトリ、ステージング含む | Starter + DAST + コンテナスキャン + 修正 PR 自動 |
| Enterprise | 60〜150 万円/月 | 全社、コンプラ要件あり | Standard + ペネトレ年 2 回 + 監査資料 + 専任窓口 |
初期費用として、初回セットアップ(30〜100 万円)を別途いただくモデルが運用しやすいです。AI 推論コスト自体は月数千〜数万円に圧縮できるため、人件費(トリアージ・改善提案・経営報告)と継続運用ノウハウが利益の源泉になります。
中小企業にとっての選び方の目安:
- 年商 〜10 億円:Starter(5 万円/月)から開始、半年後に Standard へ
- 年商 10〜100 億円:Standard(20 万円/月)が標準
- 年商 100 億円以上 / 上場 / 個人情報を扱う:Enterprise が必須
競合・代替手段との比較
セキュリティ診断の選択肢は他にも多数あります。AI 化サービスの位置付けを整理します。
| 選択肢 | 強み | 弱み | 適している顧客 |
|---|---|---|---|
| AI セキュリティ診断(本記事) | 安価、日次回せる、修正提案まで自動 | 高度な攻撃シナリオは弱い | 中小企業、SaaS スタートアップ |
| 商用 SAST/DAST(Snyk / Veracode) | 信頼性が高い、エンタープライズ実績 | ライセンス費用が高い | 大企業、上場準備 |
| 専門会社のスポット診断 | 認定資格者による高品質、責任所在明確 | 高額(数百万〜)、年 1 回が限界 | 重要な案件の節目 |
| 内製セキュリティチーム | 業務理解が深い、機微案件対応可 | 採用・育成コスト | 大企業のみ現実的 |
| OSS ツール自前運用 | 無料 | 運用工数が膨大、誤検知が多い | 技術力の高いエンジニア組織 |
AI セキュリティ診断は 「年 1 回の専門会社診断」と「平時の自前運用」の中間を埋める位置付けで、両方の長所を取り込みつつ運用コストを下げる選択肢として機能します。
受託でハマりやすい 5 つの落とし穴
最後に、AI セキュリティ診断を受託で組み立てるときの落とし穴を共有します。
落とし穴 1: AI モデルの定期入れ替えで結果が変わる
GPT / Claude / Gemini はバージョン更新で判定基準が微妙に変わるため、診断結果が前月と非連続になります。月初の “履歴比較レポート” で差分を顧客に説明する運用を組んでおくと信頼を維持できます。
落とし穴 2: 顧客のソースコードを LLM に送る同意
中小企業でも コード守秘の意識は年々高まっており、SaaS 型 LLM への送信を契約上拒否されるケースが増えています。Bedrock / Vertex AI 経由の専用エンドポイントや オンプレミス LLM(Granite / DeepSeek-V4 / Gemma)を選択肢に持つのが必須です。これは DeepSeek-V4 オンプレミス RAG で扱ったオンプレ AI 戦略と一体で考えるべきテーマです。
落とし穴 3: 修正 PR の “勝手なマージ”
AI が出した修正 PR を顧客側が無検証でマージし、ロジックを壊す事故があります。「修正 PR は人がレビュー後にマージ」を契約に明記し、自動マージを契約上拒否する条項を入れておきます。
落とし穴 4: 結果の説明責任
「AI が見落とした脆弱性で侵入された」場合の責任所在が曖昧になりがちです。「AI 診断は人の判断を代替しない補助業務である」ことを契約書面で明記し、保険でカバーされる範囲を明確化します。
落とし穴 5: 競合 OSS の急速な進化
semgrep / trivy / OSV.dev は半年単位で大きく進化するため、月次の “ツール棚卸し” を運用業務に組み込むのが必須です。
まとめ — “高すぎて手が出ない” 診断を月額モデルで届ける
セキュリティ診断は、**中小企業にとって長らく “高すぎて手が出ない領域”でした。AI で運用コストを劇的に下げ、月額モデルで継続的に提供できるようになった今、「年 1 回の高額診断」より「毎日の継続診断」**へ価値の重心が移りつつあります。
弊社では、Starter / Standard / Enterprise の 3 段階で AI セキュリティ診断の月額サービスをパッケージ化しています。「SaaS を運営しているがセキュリティ予算が組めない」「年 1 回のスポット診断を月次型に置き換えたい」というご相談は お問い合わせフォーム からお気軽にどうぞ。