Engineering at AI Speed — 受託開発を 3 倍速に再設計する契約・体制・QA 2026

2026 年 5 月、InfoQ が Presentation: Engineering at AI Speed: Lessons from the First Agentically Accelerated Software Project を公開し、同時期に OpenAI が Simplex rethinks software development with Codex で 「Codex を全工程に組み込んだソフトウェア開発」 の事例を発表しました。

両者に共通するのは、「AI 補助」ではなく「エージェント主導」 で開発プロセスそのものを作り変えている点です。これは Claude Code・Codex CLI・Copilot CLI を QCD で比較するで扱った “ツール選定” の次の段階で、ツールではなく工程設計を変える話です。

弊社では受託案件で 「AI を入れて何倍速くなった？」 という顧客の問いに答えるため、デリバリー体制そのものを再設計しています。本記事では契約・体制・QA の 3 軸で実装ガイドを整理します。

なぜ「AI 補助」では速くならないのか

「AI を入れたが、思ったより速くならない」という相談は受託案件で典型的です。InfoQ プレゼンが指摘する原因は次の 3 つです。

失敗パターン	受託案件での現れ方
個人技にとどまる	「使える人だけ速い」状態でチーム生産性が変わらない
レビューがボトルネック	PR は速く出るが、レビュアーで詰まる
QA が追いつかない	機能は出るが、テストが手作業のまま

これらは DORA・SPACE・Core 4 で測る受託 AI の ROI で扱った “計測の話” の前段にある 「工程の話」で、計測の前に 「速くなる工程」を組まないと数字も出ません。

Simplex 流 — 「エージェント主導工程」5 つの再設計

再設計 1: 仕様書を「エージェントが読む形式」に変える

人間向けに書かれた仕様書はエージェントに読みにくく、「曖昧表現で誤実装が増える」 現象が起きます。Gherkin / BDD 形式の受け入れ条件に変換することで、エージェントの一発正答率が大幅に向上します。

再設計 2: PR を「機能単位」から「変更単位」に細分化

人間がレビューしやすい 「1 PR = 1 機能」 は AI 主導では大きすぎます。「1 PR = 1 変更（数十行）」 に細分化することで、レビュー時間が短縮され、回し方が変わります。

再設計 3: テストファースト前提を契約に書く

エージェントは 「テストが先にあれば自分で検証できる」 が、人間が後からテストを書く運用だと AI の速度に追いつきません。「実装前にテストコードを納品物として書く」を契約条項に入れます。

再設計 4: 「レビュアー」を「ペアプロ的監督者」に再定義

PR レビューを 「事後の品質ゲート」 から 「実装中の対話パートナー」 に変えます。レビュアーは 「エージェントが何を作っているか」 をリアルタイムに把握し、方向転換指示を出します。

再設計 5: 完了定義を「動く」から「証拠付き」に変える

「動きました」では不十分で、「テストが緑」「ベンチが基準値内」「セキュリティスキャンが OK」の 3 点セットを完了の証拠とします。これは GitHub Codeql 宣言型セキュリティ受託で扱った “宣言型 QA” と同じ思想です。

受託契約に書く「AI Speed 条項」

条項	内容	顧客が確認すべきこと
完了定義	テスト緑 + ベンチ基準内 + 静的解析 OK の 3 点セット	検収基準の明確さ
PR 単位	1 PR = 1 変更、500 行以下	レビュー負荷
テストファースト	実装前のテストコード納品	品質担保
AI 出力責任	エージェント生成コードの最終責任は受託側	リスク分担
再現可能性	ビルド・テストがコンテナで再現できる	引き継ぎ性
観測可能性	ログ・メトリクスがダッシュボードで見える	運用引き継ぎ

特に 「AI 出力責任」は、「AI が書いたから知らない」が通用しないことを明文化する重要な条項です。

体制設計 — 「3 倍速」を支える 4 ロール

[案件オーナー] : 顧客との合意形成・スコープ管理
       │
       ├──→ [テックリード（人間）] : アーキ設計・難所対応・最終判断
       │
       ├──→ [監督者（人間）]      : エージェントの方向修正・レビュー
       │
       └──→ [Agent Fleet]         : 並列で実装（Codex / Claude Code）
              ├ Implementer Agent
              ├ Test Generator Agent
              └ Documenter Agent

従来 5 〜 8 人いた実装チームを 「人間 2 〜 3 人 + Agent Fleet」で運用することで、ヘッドカウントは減らさず アウトプット 3 倍 を狙えます。これはマルチリポ中央地図 AI 受託で扱った “全社展開” の小さい単位です。

QA 設計 — 速度を品質で殺さない 4 層

層	検査対象	担当
L1: 単体テスト	関数単位の正しさ	Agent 生成 + 人間レビュー
L2: 統合テスト	API / DB の連携	Test Generator Agent
L3: E2E テスト	ユーザー操作シナリオ	Playwright + Agent
L4: 受け入れテスト	顧客承認	人間（必須）

L4 だけは必ず人間にすることが、「AI が AI を承認する」自己循環を避けるための鉄則です。

価格モデル — AI Speed 受託パッケージ

プラン	単価	対象	体制
Speed Lite	500 万円〜	MVP / 機能追加	人間 1 + Agent Fleet
Speed Standard	1,500 万円〜	新規プロダクト	人間 2 + Agent Fleet
Speed Enterprise	5,000 万円〜	基幹刷新	人間 4 + 複数 Agent Fleet

価格は人月単価ベースから「機能単位の成果報酬」に近づけることが、「AI で速くなった」を顧客の予算意思決定に反映する現実的な構造です。

ハマりやすい 4 つの落とし穴

落とし穴 1: PR レビューがボトルネックのまま

PR を細分化しても、レビュアーが従来通り 1 件 30 分かけると速度は出ません。レビュアーロールを「監督者」に変え、リアルタイムに方向修正する運用に変えます。

落とし穴 2: テスト生成 AI を盲信

テスト生成 Agent が 「実装と同じ間違いをするテスト」を書く失敗が頻発します。最低 1 ケースは人間が手書きすることを契約に書きます。

落とし穴 3: 顧客との同期が遅れる

エージェント主導で速く動くと、顧客側の意思決定が間に合わない状態になります。週 2 回のショートチェックポイントで同期を取ります。

落とし穴 4: 引き継ぎ性の劣化

Agent が書いたコードは 「人間にとって読みにくい」 ことがあり、保守フェーズで顧客側エンジニアが詰みます。「人間が読める」基準の lint / formatterを契約に書きます。

まとめ — 「AI 補助」から「エージェント主導」へ

Engineering at AI Speed と Simplex の事例が示すのは、「ツールを入れる」ではなく「工程を作り変える」ことです。受託の現場で 「AI を入れて 3 倍速くなった」 を顧客の言葉で語るためには、契約・体制・QA を同時に再設計する必要があります。

弊社では Speed Lite / Standard / Enterprise の 3 段階で AI Speed 受託パッケージを提供しています。「AI を入れたが速くなった気がしない」「新規プロダクトを 3 倍速で出したい」というご相談はお問い合わせフォームからお気軽にどうぞ。

MySQL 9.7 LTS で受託 DB を更新する — Community Edition で実現する SMB モダナイゼーション 2026

OpenAI 音声 API 新モデルと Parloa が変える受託コールセンター — サービスエージェント実装ガイド 2026

Engineering at AI Speed — 受託開発を 3 倍速に再設計する契約・体制・QA 2026

Engineering at AI Speed — 受託開発を 3 倍速に再設計する契約・体制・QA 2026

なぜ「AI 補助」では速くならないのか