2026 年 5 月、Zenn で Claude Code・Codex CLI・Copilot CLI を QCD で比較する(オトナの自由研究 #16) が公開され、90 回のタスクで品質(Q)・コスト(C)・速度(D)を測ったところ、3 者の品質はほぼ並んだ結果が出ました。最大の発見は 「コードレビュー時の挙動差」で、CLI ではなくモデルを選ぶべきという結論でした。
弊社では、受託案件で 「どの CLI を、どのフェーズで、誰が使うか」を毎案件で意思決定する必要があります。本記事では、QCD ベンチマークの示唆を踏まえ、受託案件の CLI 選定マトリクスを実務目線で整理します。
ベンチが示した「3 つほぼ互角」の意味
90 回試行という相応の規模で 3 者の品質が並んだ事実は、受託案件にとって 「どれを選んでも品質は出る」という安心材料です。これまでは Cursor 3 vs Claude Code のような対比記事で 「正解の CLI」を探しがちでしたが、2026 年中盤の現実は 「用途で使い分ける」段階に入りました。
ベンチで明らかになった性質を整理すると以下のとおりです。
| 観点 | Claude Code | Codex CLI | GitHub Copilot CLI |
|---|---|---|---|
| 品質(同タスク) | 高 | 高 | 高(ほぼ同等) |
| 速度(同タスク) | 中 | 速 | 速 |
| 1k トークン単価 | 中 | 高 | 低 |
| 既存 GitHub 統合 | プラグインで対応 | プラグインで対応 | ネイティブ |
| サブエージェント | 強い(公式) | 中 | 弱い |
| Plan モード | 強い | 中 | 弱い |
| 大規模リファクタ | 強い | 中 | 中 |
| コードレビュー挙動 | 慎重(質問する) | 提案多 | 短く簡潔 |
特に **「コードレビュー挙動」の差は、ベンチには出ない受託の実運用品質を分けます。「PR レビューを CLI に任せる」**設計で、Claude は 「分からない部分を聞き返す」、Codex は 「とりあえず提案を出す」という挙動の差が、修正回数と最終品質に直結します。
受託案件の選定マトリクス — 4 つの軸で決める
弊社では、案件ごとに以下の 4 軸で CLI を選定します。
軸 1: 案件規模
| 規模 | 推奨 CLI | 理由 |
|---|---|---|
| 100 万円以下のスポット | Copilot CLI | 単価が低く、1 タスク完結に向く |
| 300 〜 1,500 万円の中規模 | Claude Code | サブエージェントで設計〜実装〜レビューを一貫 |
| 3,000 万円以上の大規模 | Claude Code + Codex CLI 併用 | フェーズ別に強みを使い分け |
軸 2: 規制業界
| 業界 | 推奨 CLI | 理由 |
|---|---|---|
| 一般 SaaS | 全て可 | データ持ち出し条項を契約で固める |
| BtoB SaaS(中堅) | Claude Code / Copilot CLI | エンタープライズ契約・データ取扱条項が明確 |
| 金融 / 医療 / 上場 | Claude Code Enterprise | データ非学習保証 + テナント分離 |
軸 3: 予算(月次トークン)
| 月次予算 | 推奨 CLI | 試算 |
|---|---|---|
| 月 5 万円以下 | Copilot CLI | 単価が低く、Lint 修正等で消費 |
| 月 30 万円前後 | Claude Code Pro | エンジニア 3 〜 5 人で常用 |
| 月 100 万円超 | Claude Code Team / Enterprise | 案件横断で予算管理 |
詳細は Claude Code 運用コスト最適化 2026 で扱った “1 人月あたり 10 万円基準” を参考にすると見積もりやすいです。
軸 4: チームの習熟度
| チーム特性 | 推奨 CLI | 理由 |
|---|---|---|
| AI 初心者 | Copilot CLI | IDE 統合が直感的、学習コスト低 |
| 中堅エンジニア | Claude Code | サブエージェント設計が学べる |
| AI ネイティブ | Claude Code + 自作 MCP | 案件固有の MCP で生産性最大化 |
受託案件のフェーズ別 CLI 配置
具体的な案件フェーズで CLI を配置すると以下のようになります。
[要件定義]
└ Claude Code(Plan モード)— 仕様書ドラフト
[設計]
└ Claude Code(サブエージェント)— ADR / シーケンス図
[実装]
├ Claude Code — 新規機能
├ Codex CLI — リファクタ・移行系
└ Copilot CLI — IDE 内の Lint 修正・命名
[コードレビュー]
└ Claude Code(質問挙動が強み)
[テスト追加]
└ Codex CLI(提案多めが好相性)
[ドキュメント]
└ Copilot CLI(短く簡潔)
[本番障害対応]
└ Claude Code(Plan モード + 影響範囲分析)
特に **「コードレビュー」と「本番障害対応」は、「分からないことを聞き返す」**挙動が安全側に倒れる Claude Code を推奨します。これは Claude Code Auto Mode の Approval Gates でも触れた “聞き返してくる AI のほうが事故が少ない” 知見と整合します。
受託契約に書く「CLI 利用条項」
CLI を案件で使うとき、契約書に明記すべき条項を整理します。
| 条項 | 内容 | 顧客が確認すべきこと |
|---|---|---|
| 使用 CLI | 本案件で使用する CLI と契約プラン | データ取扱条項 |
| 学習対象除外 | 顧客コードが LLM 学習に使われない保証 | エンタープライズ契約の有無 |
| データ保管リージョン | プロンプト・出力の保管リージョン | リージョン縛りがあるか |
| トークン消費上限 | 月次トークン上限 + 超過時の挙動 | 超過時のコスト負担 |
| ログ提出義務 | 顧客要求時のログ提出範囲 | 監査での開示範囲 |
| モデルバージョン固定 | 案件中にモデル変更する場合の通知 | 品質変動の事前通知 |
特に 「学習対象除外」は、ベンダーごとにエンタープライズ契約の条文が違うため、必ず最新版を確認します。
価格モデル — CLI 運用込み受託パッケージ
CLI 運用設計を含めた受託パッケージは以下のレンジです。
| プラン | 初期 / 月額 | 対象 | 内容 |
|---|---|---|---|
| CLI Lite | 50 万円 / 8 万円〜 | 1 〜 3 人月 | Copilot CLI 中心、IDE 設定 |
| CLI Standard | 180 万円 / 25 万円〜 | 4 〜 10 人月 | Claude Code 中心、サブエージェント設計 |
| CLI Enterprise | 500 万円〜 / 80 万円〜 | 10 人月超 | 複数 CLI 併用、自作 MCP、月次レビュー |
特に CLI Standard は、「Claude Code を本格的に運用したいが、設計の知見がない」チームに刺さるレンジです。
ハマりやすい 5 つの落とし穴
CLI を受託で使うときの落とし穴を共有します。
落とし穴 1: 「とりあえず Claude Code」で全案件運用
単価が高い Claude Code を全案件に入れると、スポット案件で利益率が崩れます。規模・予算で線引きを最初に行います。
落とし穴 2: ベンチの数字を鵜呑みにする
ベンチは特定タスクでの数字です。「自社案件の代表的な 5 タスクを社内ベンチ化」して、半年に 1 回再評価します。
落とし穴 3: コードレビューを丸投げ
CLI のコードレビューは 「人間レビューの代替ではなく、補助」です。最終承認は必ず人間にし、CLI のレビュー結果を主指標にしないようにします。
落とし穴 4: モデルバージョン固定を忘れる
案件中に勝手にモデルが切り替わると、「先週まで動いていたプロンプトが動かない」事態が起きます。契約に「モデル変更は 30 日前通知」を明記します。
落とし穴 5: ログの保管漏れ
CLI のプロンプトログを保管しないと、インシデント時に再現できません。最低 90 日のプロンプト + 出力ログ保管を契約に組み込みます。
まとめ — 「どの CLI が最強か」から「どう使い分けるか」へ
90 回ベンチが示した 「3 者ほぼ並ぶ」結果は、受託の現場にとって 「ツール選定で悩む時代の終わり」を意味します。これからは 「規模・規制・予算・チームで使い分ける」選定マトリクスが標準になります。
弊社では CLI Lite / Standard / Enterprise の 3 段階で CLI 運用設計込みの受託パッケージを提供しています。「どの CLI を入れるべきか分からない」「Claude Code を入れたが活用が浅い」というご相談は お問い合わせフォーム からお気軽にどうぞ。