Claude Code・Codex CLI・Copilot CLI 90回ベンチで分かった受託案件のCLI選定

2026 年 5 月、Zenn で Claude Code・Codex CLI・Copilot CLI を QCD で比較する（オトナの自由研究 #16）が公開され、90 回のタスクで品質（Q）・コスト（C）・速度（D）を測ったところ、3 者の品質はほぼ並んだ結果が出ました。最大の発見は 「コードレビュー時の挙動差」で、CLI ではなくモデルを選ぶべきという結論でした。

弊社では、受託案件で 「どの CLI を、どのフェーズで、誰が使うか」を毎案件で意思決定する必要があります。本記事では、QCD ベンチマークの示唆を踏まえ、受託案件の CLI 選定マトリクスを実務目線で整理します。

ベンチが示した「3 つほぼ互角」の意味

90 回試行という相応の規模で 3 者の品質が並んだ事実は、受託案件にとって 「どれを選んでも品質は出る」という安心材料です。これまでは Cursor 3 vs Claude Code のような対比記事で 「正解の CLI」を探しがちでしたが、2026 年中盤の現実は 「用途で使い分ける」段階に入りました。

ベンチで明らかになった性質を整理すると以下のとおりです。

観点	Claude Code	Codex CLI	GitHub Copilot CLI
品質（同タスク）	高	高	高（ほぼ同等）
速度（同タスク）	中	速	速
1k トークン単価	中	高	低
既存 GitHub 統合	プラグインで対応	プラグインで対応	ネイティブ
サブエージェント	強い（公式）	中	弱い
Plan モード	強い	中	弱い
大規模リファクタ	強い	中	中
コードレビュー挙動	慎重（質問する）	提案多	短く簡潔

特に **「コードレビュー挙動」の差は、ベンチには出ない受託の実運用品質を分けます。「PR レビューを CLI に任せる」**設計で、Claude は 「分からない部分を聞き返す」、Codex は 「とりあえず提案を出す」という挙動の差が、修正回数と最終品質に直結します。

受託案件の選定マトリクス — 4 つの軸で決める

弊社では、案件ごとに以下の 4 軸で CLI を選定します。

軸 1: 案件規模

規模	推奨 CLI	理由
100 万円以下のスポット	Copilot CLI	単価が低く、1 タスク完結に向く
300 〜 1,500 万円の中規模	Claude Code	サブエージェントで設計〜実装〜レビューを一貫
3,000 万円以上の大規模	Claude Code + Codex CLI 併用	フェーズ別に強みを使い分け

軸 2: 規制業界

業界	推奨 CLI	理由
一般 SaaS	全て可	データ持ち出し条項を契約で固める
BtoB SaaS（中堅）	Claude Code / Copilot CLI	エンタープライズ契約・データ取扱条項が明確
金融 / 医療 / 上場	Claude Code Enterprise	データ非学習保証 + テナント分離

軸 3: 予算（月次トークン）

月次予算	推奨 CLI	試算
月 5 万円以下	Copilot CLI	単価が低く、Lint 修正等で消費
月 30 万円前後	Claude Code Pro	エンジニア 3 〜 5 人で常用
月 100 万円超	Claude Code Team / Enterprise	案件横断で予算管理

詳細は Claude Code 運用コスト最適化 2026 で扱った “1 人月あたり 10 万円基準” を参考にすると見積もりやすいです。

軸 4: チームの習熟度

チーム特性	推奨 CLI	理由
AI 初心者	Copilot CLI	IDE 統合が直感的、学習コスト低
中堅エンジニア	Claude Code	サブエージェント設計が学べる
AI ネイティブ	Claude Code + 自作 MCP	案件固有の MCP で生産性最大化

受託案件のフェーズ別 CLI 配置

具体的な案件フェーズで CLI を配置すると以下のようになります。

[要件定義]
  └ Claude Code（Plan モード）— 仕様書ドラフト

[設計]
  └ Claude Code（サブエージェント）— ADR / シーケンス図

[実装]
  ├ Claude Code — 新規機能
  ├ Codex CLI — リファクタ・移行系
  └ Copilot CLI — IDE 内の Lint 修正・命名

[コードレビュー]
  └ Claude Code（質問挙動が強み）

[テスト追加]
  └ Codex CLI（提案多めが好相性）

[ドキュメント]
  └ Copilot CLI（短く簡潔）

[本番障害対応]
  └ Claude Code（Plan モード + 影響範囲分析）

特に **「コードレビュー」と「本番障害対応」は、「分からないことを聞き返す」**挙動が安全側に倒れる Claude Code を推奨します。これは Claude Code Auto Mode の Approval Gates でも触れた “聞き返してくる AI のほうが事故が少ない” 知見と整合します。

受託契約に書く「CLI 利用条項」

CLI を案件で使うとき、契約書に明記すべき条項を整理します。

条項	内容	顧客が確認すべきこと
使用 CLI	本案件で使用する CLI と契約プラン	データ取扱条項
学習対象除外	顧客コードが LLM 学習に使われない保証	エンタープライズ契約の有無
データ保管リージョン	プロンプト・出力の保管リージョン	リージョン縛りがあるか
トークン消費上限	月次トークン上限 + 超過時の挙動	超過時のコスト負担
ログ提出義務	顧客要求時のログ提出範囲	監査での開示範囲
モデルバージョン固定	案件中にモデル変更する場合の通知	品質変動の事前通知

特に 「学習対象除外」は、ベンダーごとにエンタープライズ契約の条文が違うため、必ず最新版を確認します。

価格モデル — CLI 運用込み受託パッケージ

CLI 運用設計を含めた受託パッケージは以下のレンジです。

プラン	初期 / 月額	対象	内容
CLI Lite	50 万円 / 8 万円〜	1 〜 3 人月	Copilot CLI 中心、IDE 設定
CLI Standard	180 万円 / 25 万円〜	4 〜 10 人月	Claude Code 中心、サブエージェント設計
CLI Enterprise	500 万円〜 / 80 万円〜	10 人月超	複数 CLI 併用、自作 MCP、月次レビュー

特に CLI Standard は、「Claude Code を本格的に運用したいが、設計の知見がない」チームに刺さるレンジです。

ハマりやすい 5 つの落とし穴

CLI を受託で使うときの落とし穴を共有します。

落とし穴 1: 「とりあえず Claude Code」で全案件運用

単価が高い Claude Code を全案件に入れると、スポット案件で利益率が崩れます。規模・予算で線引きを最初に行います。

落とし穴 2: ベンチの数字を鵜呑みにする

ベンチは特定タスクでの数字です。「自社案件の代表的な 5 タスクを社内ベンチ化」して、半年に 1 回再評価します。

落とし穴 3: コードレビューを丸投げ

CLI のコードレビューは 「人間レビューの代替ではなく、補助」です。最終承認は必ず人間にし、CLI のレビュー結果を主指標にしないようにします。

落とし穴 4: モデルバージョン固定を忘れる

案件中に勝手にモデルが切り替わると、「先週まで動いていたプロンプトが動かない」事態が起きます。契約に「モデル変更は 30 日前通知」を明記します。

落とし穴 5: ログの保管漏れ

CLI のプロンプトログを保管しないと、インシデント時に再現できません。最低 90 日のプロンプト + 出力ログ保管を契約に組み込みます。

まとめ — 「どの CLI が最強か」から「どう使い分けるか」へ

90 回ベンチが示した 「3 者ほぼ並ぶ」結果は、受託の現場にとって 「ツール選定で悩む時代の終わり」を意味します。これからは 「規模・規制・予算・チームで使い分ける」選定マトリクスが標準になります。

弊社では CLI Lite / Standard / Enterprise の 3 段階で CLI 運用設計込みの受託パッケージを提供しています。「どの CLI を入れるべきか分からない」「Claude Code を入れたが活用が浅い」というご相談はお問い合わせフォームからお気軽にどうぞ。

Cloudflare Dynamic Workflows — マルチテナント受託SaaS の耐障害ワークフロー設計 2026

AWS Aurora Serverless v4 — 受託DB の立ち上げ高速化と 30% スループット改善

GitHub Agentic Workflows CI/CD 多層防御 — 受託エージェント運用のセキュリティ設計 2026

Claude Code・Codex CLI・Copilot CLI 90回ベンチで分かった受託案件のCLI選定

ベンチが示した「3 つほぼ互角」の意味