2026 年 5 月 30 日、InfoQ が Arm Open-Sources Metis, an AI Security Framework Outperforming Traditional SAST Tools を公開しました。Arm は Metis(メティス)と名付けた AI エージェント型セキュリティフレームワークを Apache 2.0 ライセンスで OSS 公開。Semgrep / CodeQL / SonarQube など従来のルールベース SAST に対して、OWASP Benchmark で誤検知 -62% / 真陽性 +37% という結果を出したと報告されています。同日 Hacker News では EY Canada published a cybersecurity report and most citations were hallucinated が話題化し、「AI を使うなら、AI 自身の出力を検証する仕組みが必須」という認識も同時に広がりました。
受託で中堅企業の アプリケーションセキュリティ(AppSec)を支える立場では、これは **「ルールベース SAST を導入して終わり」だった案件が、「エージェント型 AppSec を入れた上で誤検知吸収と継続検証を含めて運用代行する」フェーズに進化したことを意味します。これまで AI で月 $0.5 のセキュリティ診断(GH Media) で示した AI コスト構造、nginx 18 年放置の脆弱性受託監査(GH Media) で扱った インフラ監査、GitHub Actions サプライチェーン継続監査(GH Media) で扱った CI/CD ガバナンスと接続して、「エージェント型 AppSec 監査」**を 受託パッケージとして整理します。
なぜ「エージェント型 AppSec が分水嶺」なのか
| 観点 | ルールベース SAST(Semgrep / CodeQL) | エージェント型 AppSec(Metis) |
|---|---|---|
| 検知方式 | パターンマッチ + データフロー解析 | コード文脈理解 + 攻撃シナリオ生成 |
| 誤検知率 | 高(30〜60%) | 低(10〜20%) |
| 真陽性率 | 中(既知脆弱性中心) | 高(新型・未知ロジックも検知) |
| 言語サポート | 言語ごとにルール再構築 | LLM 汎化で多言語対応 |
| ビジネスロジック脆弱性 | 弱い | 強い(プロンプトで定義可能) |
| 修正提案 | 雛形リンク | PR レビューコメント自動生成 |
| コスト | OSS or 年契約 | LLM トークン課金(変動) |
| 監査ログ | 検知結果のみ | プロンプト + 推論経路 |
つまりエージェント型 AppSec は **「検出後の修正提案までを 1 つのフロー」に統合し、「セキュリティチームの目視レビュー工数」**を 構造的に削減します。
受託案件で活きる 3 つの構造変化
構造 1: 「SAST 導入で終わり」から「誤検知吸収運用込み」へ
中堅企業は Semgrep / SonarQube を CI に組み込んで満足してきましたが、月 200〜500 件の誤検知で 開発者がアラート無視するのが現実です。受託では Metis 等の エージェント型 AppSec を導入 + 誤検知を週次トリアージ + 真陽性を Jira / Linear に自動起票まで運用代行します。これは AI で月 $0.5 のセキュリティ診断(GH Media) で示した AI でコストを 1/100 にする設計の AppSec 版です。
構造 2: 「年 1 回の脆弱性診断」から「PR 単位の継続検証」へ
従来の 年 1 回の高額外注診断は、マージから検出までのリードタイムが 6〜12 ヶ月になる致命的欠陥がありました。エージェント型 AppSec は PR ごとに 30 秒で検証 + 重大度判定 + 修正案を返せます。これは GitHub Actions サプライチェーン継続監査(GH Media) で扱った 継続監査の アプリケーションコード版です。
構造 3: 「セキュリティチーム抱え込み」から「開発者セルフサービス」へ
受託では 開発者が PR を出したタイミングで Metis が一次レビュー → セキュリティチームは重大度 High のみ目視するモデルを提供します。セキュリティチームの工数 -60% / マージ前検出率 +85% が現実的に狙えます。これは nginx 脆弱性受託監査(GH Media) で扱った インフラ監査の アプリ層版です。
受託で提供する「エージェント型 AppSec 監査」5 フェーズ
フェーズ 1: 現状診断(2 週間)
- 既存 SAST / DAST / SCA 製品棚卸し
- 過去 6 ヶ月の脆弱性 / 誤検知統計
- 開発フロー(PR / マージ / リリース)の調査
- セキュリティチーム工数分析
- リスクスコア + 優先度マップ
フェーズ 2: ツール選定 + 設計(2 週間)
- Metis vs CodeQL vs Semgrep AI 比較
- LLM ベンダー選定(OpenAI / Anthropic / Bedrock / 内製)
- 機微度別の処理境界(OSS / プロプライエタリ / 閉域)
- 検知ポリシー + 重大度マトリクス
- 誤検知トリアージフロー
- KPI 設計(MTTD / MTTR / 検出率)
フェーズ 3: 構築(3〜4 週間)
- CI/CD 統合(GitHub Actions / GitLab CI / CircleCI)
- PR レビューボット実装
- Jira / Linear 自動起票
- セキュリティダッシュボード(Grafana / Datadog)
- LLM プロンプト + 評価セット
- インシデント対応 Runbook
フェーズ 4: パイロット展開(3 週間)
- 1〜2 リポジトリで運用開始
- 開発者向け説明会(30 分)
- 週次トリアージ会の設計
- 誤検知のフィードバックループ
- KPI 計測 + 改善
フェーズ 5: 月次運用レビュー(継続)
- 検知 / 誤検知 / 修正完了統計
- 新型脆弱性のプロンプト追加
- LLM ベンダー切替評価
- セキュリティチーム工数推移
- 半期ごとの脅威モデル更新
受託向け技術スタック標準セット
| レイヤ | 推奨技術 | 代替 |
|---|---|---|
| エージェント型 SAST | Metis(Arm OSS) | CodeQL AI / Semgrep AI / Snyk Code |
| LLM | Claude Opus 4.X / GPT-5.5 / Bedrock | DeepSeek / Llama 4 |
| CI/CD | GitHub Actions / GitLab CI | CircleCI / Jenkins |
| チケット | Jira / Linear / GitHub Issues | Notion |
| ダッシュボード | Grafana / Datadog | New Relic |
| SIEM | Microsoft Sentinel / Splunk | Sumo Logic |
| SCA | Dependabot / Renovate / Snyk | Mend |
| DAST | OWASP ZAP / Burp Enterprise | Acunetix |
どの案件に必要か / 不要か
| 必要な案件 | 不要な案件 |
|---|---|
| 自社開発のアプリケーションがある | 既製パッケージのみ |
| 月次の PR 件数が 50 件以上 | 静的サイト主体 |
| 監査要件(ISO 27001 / SOC2 / PCI DSS) | 監査対象外 |
| 既存 SAST の誤検知に疲弊 | アラート 0 件運用 |
| OSS 依存比率が高い | 内製クローズドのみ |
受託契約に書く 6 つの条項
| 条項 | 内容 | 顧客が確認すべきこと |
|---|---|---|
| 対象リポジトリ | リポジトリ名 + ブランチポリシー | 範囲外 PR の扱い |
| 検知ポリシー | OWASP Top 10 + 内部規程 + 業界規制 | 業務固有のロジック |
| 重大度判定 | Critical / High / Medium / Low | エスカレ閾値 |
| データ取扱 | コード送信先 LLM + 保持期間 | 営業秘密保護 |
| 退場時引き渡し | プロンプト / 評価セット / ルール | 自社運用継続性 |
| インシデント時運用 | 24h / 営業時間 / 即時遮断 | SLA |
価格モデル — エージェント型 AppSec パッケージ
| プラン | 金額 | 対象 | 内容 |
|---|---|---|---|
| 診断 / PoC | 150 万円〜(6 週間) | 棚卸し + PoC + ベンチ | レポート + 設計書 |
| Lite | 50 万円〜 / 月 | リポジトリ 1〜5 個 | 月次レビュー + 誤検知吸収 |
| Standard | 120 万円〜 / 月 | リポジトリ 5〜20 個 | + SIEM 連携 + 週次レビュー |
| Enterprise | 280 万円〜 / 月 | リポジトリ 20 個以上 | + 専任エンジニア + 月次ワークショップ |
| 初期構築 | 400 万円〜(一括) | CI/CD + LLM + SIEM 統合 | 全プラン共通 |
顧客側 ROI 試算(リポジトリ 15 個 / 月次 PR 800 件想定)
| 項目 | 既存(ルールベース SAST) | エージェント型 AppSec 導入後 | 差分 |
|---|---|---|---|
| 月次誤検知件数 | 400 件 | 100 件 | -300 件 |
| トリアージ工数(月) | 120 時間 | 30 時間 | -90 時間 |
| マージ前検出率 | 30% | 78% | +48pt |
| 重大インシデント(年) | 2〜3 件 | 0〜1 件 | -2 件 |
| 外注診断費用(年) | 800 万円 | 200 万円 | -600 万円 |
| 年間効果 | — | — | 約 1,500 万円相当 + マージ後インシデントの大幅削減 |
時給 8,000 円換算で 年間 860 万円の工数削減 + 外注費削減 600 万円。Standard プラン(年額 1,440 万円)でも 12 ヶ月以内で回収可能です。
ハマりやすい 5 つの落とし穴
落とし穴 1: 「OSS だから無料」と思い込む
Metis 本体は OSS でも、LLM 推論コストとトリアージ工数は別途発生します。月次予算上限と KPIを初日に設定します。
落とし穴 2: 機微度別のコード送信先を切り分けない
すべてのコードを クラウド LLMに送信する設計は、営業秘密 / 顧客データを含むリポジトリで NG です。機微度別に Bedrock / Vertex / 閉域 LLMへ振り分けます。
落とし穴 3: 既存 SAST を完全に置き換える
Semgrep / CodeQL の 既知脆弱性検知は依然強力です。エージェント型は併設 + 補完として導入し、段階的に置換します。
落とし穴 4: 修正案を信頼しすぎる
LLM が出す 修正パッチは 2〜3 割が誤りです。人手レビュー + 自動テストを必ず通します。
落とし穴 5: 監査ログを取らない
検知時のプロンプトと応答を保存しないと、誤検知の原因追跡や精度改善ができません。暗号化 + 期限付き保存で運用します。
90 日アクションプラン
| 週 | アクション |
|---|---|
| Week 1〜2 | 棚卸し + 過去脆弱性統計 + リスクマップ |
| Week 3〜4 | ツール選定 + 検知ポリシー + KPI 設計 |
| Week 5〜8 | CI/CD 統合 + PR ボット + ダッシュボード |
| Week 9〜11 | パイロットリポジトリ展開 + 開発者教育 |
| Week 12 | 全社展開 + Runbook 整備 |
| Week 13 | 月次レビュー初回 + ROI 計測 |
まとめ — 「ルールベース SAST」から「エージェント型 AppSec」へ進化する企業セキュリティ
Arm Metis の OSS 公開は、「AppSec の主役がルールベースから AI エージェントに移った」ことを示しています。受託で中堅企業のセキュリティを支える立場では、ツール導入 + 誤検知吸収 + 継続検証 + 開発者教育を一体で提供する 「エージェント型 AppSec 監査」が新しい主力サービスです。
弊社では 診断 / Lite / Standard / Enterprise の 4 段階で本パッケージを提供しています。「SAST のアラートが多すぎて開発者が無視している」「マージ後に脆弱性が見つかる事案が続いている」「年 1 回の外注診断ではリードタイムが長すぎる」というご相談は お問い合わせフォーム からお気軽にどうぞ。
Sources
- Arm Open-Sources Metis, an AI Security Framework Outperforming Traditional SAST Tools(InfoQ 2026-05-30)
- EY Canada published a cybersecurity report and most citations were hallucinated(Hacker News 2026-05-30)
- AI で月 $0.5 のセキュリティ診断(GH Media)
- nginx 18 年放置の脆弱性受託監査(GH Media)
- GitHub Actions サプライチェーン継続監査(GH Media)