Claude Code・Codex CLI・Copilot CLI 90回ベンチで分かった受託案件のCLI選定 | GH Media
URLがコピーされました

Claude Code・Codex CLI・Copilot CLI 90回ベンチで分かった受託案件のCLI選定

URLがコピーされました
Claude Code・Codex CLI・Copilot CLI 90回ベンチで分かった受託案件のCLI選定

2026 年 5 月、Zenn で Claude Code・Codex CLI・Copilot CLI を QCD で比較する(オトナの自由研究 #16) が公開され、90 回のタスクで品質(Q)・コスト(C)・速度(D)を測ったところ、3 者の品質はほぼ並んだ結果が出ました。最大の発見は 「コードレビュー時の挙動差」で、CLI ではなくモデルを選ぶべきという結論でした。

弊社では、受託案件で 「どの CLI を、どのフェーズで、誰が使うか」を毎案件で意思決定する必要があります。本記事では、QCD ベンチマークの示唆を踏まえ、受託案件の CLI 選定マトリクスを実務目線で整理します。

ベンチが示した「3 つほぼ互角」の意味

90 回試行という相応の規模で 3 者の品質が並んだ事実は、受託案件にとって 「どれを選んでも品質は出る」という安心材料です。これまでは Cursor 3 vs Claude Code のような対比記事で 「正解の CLI」を探しがちでしたが、2026 年中盤の現実は 「用途で使い分ける」段階に入りました。

ベンチで明らかになった性質を整理すると以下のとおりです。

観点Claude CodeCodex CLIGitHub Copilot CLI
品質(同タスク)高(ほぼ同等)
速度(同タスク)
1k トークン単価
既存 GitHub 統合プラグインで対応プラグインで対応ネイティブ
サブエージェント強い(公式)弱い
Plan モード強い弱い
大規模リファクタ強い
コードレビュー挙動慎重(質問する)提案多短く簡潔

特に **「コードレビュー挙動」の差は、ベンチには出ない受託の実運用品質を分けます。「PR レビューを CLI に任せる」**設計で、Claude は 「分からない部分を聞き返す」、Codex は 「とりあえず提案を出す」という挙動の差が、修正回数と最終品質に直結します。

受託案件の選定マトリクス — 4 つの軸で決める

弊社では、案件ごとに以下の 4 軸で CLI を選定します。

軸 1: 案件規模

規模推奨 CLI理由
100 万円以下のスポットCopilot CLI単価が低く、1 タスク完結に向く
300 〜 1,500 万円の中規模Claude Codeサブエージェントで設計〜実装〜レビューを一貫
3,000 万円以上の大規模Claude Code + Codex CLI 併用フェーズ別に強みを使い分け

軸 2: 規制業界

業界推奨 CLI理由
一般 SaaS全て可データ持ち出し条項を契約で固める
BtoB SaaS(中堅)Claude Code / Copilot CLIエンタープライズ契約・データ取扱条項が明確
金融 / 医療 / 上場Claude Code Enterpriseデータ非学習保証 + テナント分離

軸 3: 予算(月次トークン)

月次予算推奨 CLI試算
月 5 万円以下Copilot CLI単価が低く、Lint 修正等で消費
月 30 万円前後Claude Code Proエンジニア 3 〜 5 人で常用
月 100 万円超Claude Code Team / Enterprise案件横断で予算管理

詳細は Claude Code 運用コスト最適化 2026 で扱った “1 人月あたり 10 万円基準” を参考にすると見積もりやすいです。

軸 4: チームの習熟度

チーム特性推奨 CLI理由
AI 初心者Copilot CLIIDE 統合が直感的、学習コスト低
中堅エンジニアClaude Codeサブエージェント設計が学べる
AI ネイティブClaude Code + 自作 MCP案件固有の MCP で生産性最大化

受託案件のフェーズ別 CLI 配置

具体的な案件フェーズで CLI を配置すると以下のようになります。

[要件定義]
  └ Claude Code(Plan モード)— 仕様書ドラフト

[設計]
  └ Claude Code(サブエージェント)— ADR / シーケンス図

[実装]
  ├ Claude Code — 新規機能
  ├ Codex CLI — リファクタ・移行系
  └ Copilot CLI — IDE 内の Lint 修正・命名

[コードレビュー]
  └ Claude Code(質問挙動が強み)

[テスト追加]
  └ Codex CLI(提案多めが好相性)

[ドキュメント]
  └ Copilot CLI(短く簡潔)

[本番障害対応]
  └ Claude Code(Plan モード + 影響範囲分析)

特に **「コードレビュー」と「本番障害対応」は、「分からないことを聞き返す」**挙動が安全側に倒れる Claude Code を推奨します。これは Claude Code Auto Mode の Approval Gates でも触れた “聞き返してくる AI のほうが事故が少ない” 知見と整合します。

受託契約に書く「CLI 利用条項」

CLI を案件で使うとき、契約書に明記すべき条項を整理します。

条項内容顧客が確認すべきこと
使用 CLI本案件で使用する CLI と契約プランデータ取扱条項
学習対象除外顧客コードが LLM 学習に使われない保証エンタープライズ契約の有無
データ保管リージョンプロンプト・出力の保管リージョンリージョン縛りがあるか
トークン消費上限月次トークン上限 + 超過時の挙動超過時のコスト負担
ログ提出義務顧客要求時のログ提出範囲監査での開示範囲
モデルバージョン固定案件中にモデル変更する場合の通知品質変動の事前通知

特に 「学習対象除外」は、ベンダーごとにエンタープライズ契約の条文が違うため、必ず最新版を確認します。

価格モデル — CLI 運用込み受託パッケージ

CLI 運用設計を含めた受託パッケージは以下のレンジです。

プラン初期 / 月額対象内容
CLI Lite50 万円 / 8 万円〜1 〜 3 人月Copilot CLI 中心、IDE 設定
CLI Standard180 万円 / 25 万円〜4 〜 10 人月Claude Code 中心、サブエージェント設計
CLI Enterprise500 万円〜 / 80 万円〜10 人月超複数 CLI 併用、自作 MCP、月次レビュー

特に CLI Standard は、「Claude Code を本格的に運用したいが、設計の知見がない」チームに刺さるレンジです。

ハマりやすい 5 つの落とし穴

CLI を受託で使うときの落とし穴を共有します。

落とし穴 1: 「とりあえず Claude Code」で全案件運用

単価が高い Claude Code を全案件に入れると、スポット案件で利益率が崩れます規模・予算で線引きを最初に行います。

落とし穴 2: ベンチの数字を鵜呑みにする

ベンチは特定タスクでの数字です。「自社案件の代表的な 5 タスクを社内ベンチ化」して、半年に 1 回再評価します。

落とし穴 3: コードレビューを丸投げ

CLI のコードレビューは 「人間レビューの代替ではなく、補助」です。最終承認は必ず人間にし、CLI のレビュー結果を主指標にしないようにします。

落とし穴 4: モデルバージョン固定を忘れる

案件中に勝手にモデルが切り替わると、「先週まで動いていたプロンプトが動かない」事態が起きます。契約に「モデル変更は 30 日前通知」を明記します。

落とし穴 5: ログの保管漏れ

CLI のプロンプトログを保管しないと、インシデント時に再現できません最低 90 日のプロンプト + 出力ログ保管を契約に組み込みます。

まとめ — 「どの CLI が最強か」から「どう使い分けるか」へ

90 回ベンチが示した 「3 者ほぼ並ぶ」結果は、受託の現場にとって 「ツール選定で悩む時代の終わり」を意味します。これからは 「規模・規制・予算・チームで使い分ける」選定マトリクスが標準になります。

弊社では CLI Lite / Standard / Enterprise の 3 段階で CLI 運用設計込みの受託パッケージを提供しています。「どの CLI を入れるべきか分からない」「Claude Code を入れたが活用が浅い」というご相談は お問い合わせフォーム からお気軽にどうぞ。

Sources

URLがコピーされました

グリームハブ株式会社は、変化の激しい時代において、アイデアを形にし、人がもっと自由に、もっと創造的に生きられる世界を目指しています。

記事を書いた人

鈴木 翔

鈴木 翔

技術の可能性に魅了され、学生時代からプログラミングとデジタルアートの分野に深い関心を持つ

関連記事