Arm が Metis を OSS 化 ─ 受託で導入する AI エージェント型 AppSec 監査 2026

2026 年 5 月 30 日、InfoQ が Arm Open-Sources Metis, an AI Security Framework Outperforming Traditional SAST Tools を公開しました。Arm は Metis（メティス）と名付けた AI エージェント型セキュリティフレームワークを Apache 2.0 ライセンスで OSS 公開。Semgrep / CodeQL / SonarQube など従来のルールベース SAST に対して、OWASP Benchmark で誤検知 -62% / 真陽性 +37% という結果を出したと報告されています。同日 Hacker News では EY Canada published a cybersecurity report and most citations were hallucinated が話題化し、「AI を使うなら、AI 自身の出力を検証する仕組みが必須」という認識も同時に広がりました。

受託で中堅企業の アプリケーションセキュリティ（AppSec）を支える立場では、これは **「ルールベース SAST を導入して終わり」だった案件が、「エージェント型 AppSec を入れた上で誤検知吸収と継続検証を含めて運用代行する」フェーズに進化したことを意味します。これまで AI で月 $0.5 のセキュリティ診断（GH Media）で示した AI コスト構造、nginx 18 年放置の脆弱性受託監査（GH Media）で扱った インフラ監査、GitHub Actions サプライチェーン継続監査（GH Media）で扱った CI/CD ガバナンスと接続して、「エージェント型 AppSec 監査」**を 受託パッケージとして整理します。

なぜ「エージェント型 AppSec が分水嶺」なのか

観点	ルールベース SAST（Semgrep / CodeQL）	エージェント型 AppSec（Metis）
検知方式	パターンマッチ + データフロー解析	コード文脈理解 + 攻撃シナリオ生成
誤検知率	高（30〜60%）	低（10〜20%）
真陽性率	中（既知脆弱性中心）	高（新型・未知ロジックも検知）
言語サポート	言語ごとにルール再構築	LLM 汎化で多言語対応
ビジネスロジック脆弱性	弱い	強い（プロンプトで定義可能）
修正提案	雛形リンク	PR レビューコメント自動生成
コスト	OSS or 年契約	LLM トークン課金（変動）
監査ログ	検知結果のみ	プロンプト + 推論経路

つまりエージェント型 AppSec は **「検出後の修正提案までを 1 つのフロー」に統合し、「セキュリティチームの目視レビュー工数」**を 構造的に削減します。

受託案件で活きる 3 つの構造変化

構造 1: 「SAST 導入で終わり」から「誤検知吸収運用込み」へ

中堅企業は Semgrep / SonarQube を CI に組み込んで満足してきましたが、月 200〜500 件の誤検知で 開発者がアラート無視するのが現実です。受託では Metis 等の エージェント型 AppSec を導入 + 誤検知を週次トリアージ + 真陽性を Jira / Linear に自動起票まで運用代行します。これは AI で月 $0.5 のセキュリティ診断（GH Media）で示した AI でコストを 1/100 にする設計の AppSec 版です。

構造 2: 「年 1 回の脆弱性診断」から「PR 単位の継続検証」へ

従来の 年 1 回の高額外注診断は、マージから検出までのリードタイムが 6〜12 ヶ月になる致命的欠陥がありました。エージェント型 AppSec は PR ごとに 30 秒で検証 + 重大度判定 + 修正案を返せます。これは GitHub Actions サプライチェーン継続監査（GH Media）で扱った 継続監査の アプリケーションコード版です。

構造 3: 「セキュリティチーム抱え込み」から「開発者セルフサービス」へ

受託では 開発者が PR を出したタイミングで Metis が一次レビュー → セキュリティチームは重大度 High のみ目視するモデルを提供します。セキュリティチームの工数 -60% / マージ前検出率 +85% が現実的に狙えます。これは nginx 脆弱性受託監査（GH Media）で扱った インフラ監査の アプリ層版です。

受託で提供する「エージェント型 AppSec 監査」5 フェーズ

フェーズ 1: 現状診断（2 週間）

既存 SAST / DAST / SCA 製品棚卸し
過去 6 ヶ月の脆弱性 / 誤検知統計
開発フロー（PR / マージ / リリース）の調査
セキュリティチーム工数分析
リスクスコア + 優先度マップ

フェーズ 2: ツール選定 + 設計（2 週間）

Metis vs CodeQL vs Semgrep AI 比較
LLM ベンダー選定（OpenAI / Anthropic / Bedrock / 内製）
機微度別の処理境界（OSS / プロプライエタリ / 閉域）
検知ポリシー + 重大度マトリクス
誤検知トリアージフロー
KPI 設計（MTTD / MTTR / 検出率）

フェーズ 3: 構築（3〜4 週間）

CI/CD 統合（GitHub Actions / GitLab CI / CircleCI）
PR レビューボット実装
Jira / Linear 自動起票
セキュリティダッシュボード（Grafana / Datadog）
LLM プロンプト + 評価セット
インシデント対応 Runbook

フェーズ 4: パイロット展開（3 週間）

1〜2 リポジトリで運用開始
開発者向け説明会（30 分）
週次トリアージ会の設計
誤検知のフィードバックループ
KPI 計測 + 改善

フェーズ 5: 月次運用レビュー（継続）

検知 / 誤検知 / 修正完了統計
新型脆弱性のプロンプト追加
LLM ベンダー切替評価
セキュリティチーム工数推移
半期ごとの脅威モデル更新

受託向け技術スタック標準セット

レイヤ	推奨技術	代替
エージェント型 SAST	Metis（Arm OSS）	CodeQL AI / Semgrep AI / Snyk Code
LLM	Claude Opus 4.X / GPT-5.5 / Bedrock	DeepSeek / Llama 4
CI/CD	GitHub Actions / GitLab CI	CircleCI / Jenkins
チケット	Jira / Linear / GitHub Issues	Notion
ダッシュボード	Grafana / Datadog	New Relic
SIEM	Microsoft Sentinel / Splunk	Sumo Logic
SCA	Dependabot / Renovate / Snyk	Mend
DAST	OWASP ZAP / Burp Enterprise	Acunetix

どの案件に必要か / 不要か

必要な案件	不要な案件
自社開発のアプリケーションがある	既製パッケージのみ
月次の PR 件数が 50 件以上	静的サイト主体
監査要件（ISO 27001 / SOC2 / PCI DSS）	監査対象外
既存 SAST の誤検知に疲弊	アラート 0 件運用
OSS 依存比率が高い	内製クローズドのみ

受託契約に書く 6 つの条項

条項	内容	顧客が確認すべきこと
対象リポジトリ	リポジトリ名 + ブランチポリシー	範囲外 PR の扱い
検知ポリシー	OWASP Top 10 + 内部規程 + 業界規制	業務固有のロジック
重大度判定	Critical / High / Medium / Low	エスカレ閾値
データ取扱	コード送信先 LLM + 保持期間	営業秘密保護
退場時引き渡し	プロンプト / 評価セット / ルール	自社運用継続性
インシデント時運用	24h / 営業時間 / 即時遮断	SLA

顧客側 ROI 試算（リポジトリ 15 個 / 月次 PR 800 件想定）

項目	既存（ルールベース SAST）	エージェント型 AppSec 導入後	差分
月次誤検知件数	400 件	100 件	-300 件
トリアージ工数（月）	120 時間	30 時間	-90 時間
マージ前検出率	30%	78%	+48pt
重大インシデント（年）	2〜3 件	0〜1 件	-2 件
外注診断費用（年）	800 万円	200 万円	-600 万円
年間効果	—	—	約 1,500 万円相当 + マージ後インシデントの大幅削減

時給 8,000 円換算で 年間 860 万円の工数削減 + 外注費削減 600 万円。導入コスト（LLM 推論費 + 構築 + 運用）をこの効果額と並べて、投資回収期間が 12 ヶ月を切るかを意思決定の目安にするとよいでしょう。リポジトリ数と PR 件数で必要工数が大きく変わるため、試算は自社の実数値に置き換えて行ってください。

ハマりやすい 5 つの落とし穴

落とし穴 1: 「OSS だから無料」と思い込む

Metis 本体は OSS でも、LLM 推論コストとトリアージ工数は別途発生します。月次予算上限と KPIを初日に設定します。

落とし穴 2: 機微度別のコード送信先を切り分けない

すべてのコードを クラウド LLMに送信する設計は、営業秘密 / 顧客データを含むリポジトリで NG です。機微度別に Bedrock / Vertex / 閉域 LLMへ振り分けます。

落とし穴 3: 既存 SAST を完全に置き換える

Semgrep / CodeQL の 既知脆弱性検知は依然強力です。エージェント型は併設 + 補完として導入し、段階的に置換します。

落とし穴 4: 修正案を信頼しすぎる

LLM が出す 修正パッチは 2〜3 割が誤りです。人手レビュー + 自動テストを必ず通します。

落とし穴 5: 監査ログを取らない

検知時のプロンプトと応答を保存しないと、誤検知の原因追跡や精度改善ができません。暗号化 + 期限付き保存で運用します。

90 日アクションプラン

週	アクション
Week 1〜2	棚卸し + 過去脆弱性統計 + リスクマップ
Week 3〜4	ツール選定 + 検知ポリシー + KPI 設計
Week 5〜8	CI/CD 統合 + PR ボット + ダッシュボード
Week 9〜11	パイロットリポジトリ展開 + 開発者教育
Week 12	全社展開 + Runbook 整備
Week 13	月次レビュー初回 + ROI 計測

まとめ — 「ルールベース SAST」から「エージェント型 AppSec」へ進化する企業セキュリティ

Arm Metis の OSS 公開は、「AppSec の主役がルールベースから AI エージェントに移った」ことを示しています。受託で中堅企業のセキュリティを支える立場では、ツール導入 + 誤検知吸収 + 継続検証 + 開発者教育を一体で提供する 「エージェント型 AppSec 監査」が新しい主力サービスです。

エージェント型 AppSec の導入検討や、既存 SAST との併設・誤検知トリアージ体制の設計については、リポジトリ規模や監査要件をうかがったうえで個別にお見積りします。「SAST のアラートが多すぎて開発者が無視している」「マージ後に脆弱性が見つかる事案が続いている」「年 1 回の外注診断ではリードタイムが長すぎる」といったご相談はお問い合わせフォームからお気軽にどうぞ。

Google Workspace の2段階認証とセキュリティ設定 — 管理者が締め出される前に

自社サイトがAIエージェントに「操作される」時代へ — WebMCPで予約・購入を取りこぼさない準備

脆弱性診断とは｜種類・費用相場・ツール・依頼先の選び方を中小企業向けに解説

Arm が Metis を OSS 化 ─ 受託で導入する AI エージェント型 AppSec 監査 2026

なぜ「エージェント型 AppSec が分水嶺」なのか