中規模オープンモデル”三国志”の始まり
2026年3〜4月、オープンモデル界隈で注目すべき3つのリリースが立て続けに発表されました。
- Google Gemma 4(4月2日)— E2B/E4B/26B MoE/31B Dense の4サイズ、マルチモーダル対応、Apache 2.0ライセンスへ変更
- Alibaba Qwen 3.5(3月下旬)— 2B から 397B-A17B まで7サイズをカバーするラインナップ
- IBM Granite 4.0 3B Vision(3月31日)— 企業文書抽出に特化したLoRAアダプタ型ビジョン言語モデル
どのモデルも「クラウドに依存しない中規模オープンモデル」というカテゴリーで競合しますが、設計思想と得意分野がまったく異なるのが2026年春の大きな特徴です。本記事では単独ガイドではなく、実装担当者がユースケースに応じて選定できるように 4つの軸(ライセンス/ベンチマーク/得意分野/運用コスト) で整理します。
Gemma 4 単体のローカル実行手順は Gemma 4 で何ができる?Googleの最新オープンモデルをローカルで動かす実践ガイド を、AIエージェントの制御設計全般は ハーネスエンジニアリング入門 を併せてご参照ください。
1. ライセンスと商用利用
モデル選定で最初に確認すべきはライセンスです。エンタープライズ導入では「再配布可能か」「派生モデルに制約はないか」が死活問題になります。
| モデル | ライセンス | 商用利用 | 再配布 | 特記事項 |
|---|---|---|---|---|
| Gemma 4 | Apache 2.0 | ○ | ○ | 2026年4月に Gemma 独自ライセンスから変更。制約なし |
| Qwen 3.5 | Apache 2.0 | ○ | ○ | 以前から寛容なライセンス方針を継続 |
| Granite 4.0 Vision | Apache 2.0 | ○ | ○ | IBM が企業向けに提供、モデルカードも整備 |
特筆すべきは Gemma 4 がついに Apache 2.0 に移行 した点です。これまで Gemma 独自ライセンスに存在した「利用ポリシー遵守義務」などの独自条項が撤廃され、Qwen・Granite と同じ土俵に立ちました。VentureBeat はこのライセンス変更について「ベンチマークの数字よりこちらの方が重要かもしれない」と評しています。
2. ベンチマークで見る”ガチ性能”
31B/35B クラスの比較
2026年春時点で公表されているベンチマークを整理すると、総合力では Gemma 4 31B がやや先行 していますが、コーディングとエージェント系では Qwen 3.5 が依然として強い という構図が見えます。
| ベンチマーク | Gemma 4 31B Dense | Qwen 3.5 35B-A3B |
|---|---|---|
| MMLU Pro | 85.2% | 82.1% |
| AIME 2026(数学) | 89.2% | 86.4% |
| LiveCodeBench v6 | 80.0% | 82.3% |
| GPQA Diamond | 84.3% | 81.8% |
| Codeforces ELO | 2,150 | 2,230 |
Gemma 4 は数学的推論と一般知識で Qwen 3.5 を上回る一方、実務コーディング(LiveCodeBench・Codeforces)では Qwen 3.5 が一歩リード。Zenn Trending 上の日本語ベンチマーク記事でも「同クラスでの競争は互角、勝敗はワークロード次第」という評価が定着しつつあります。
多言語・翻訳タスク
海外コミュニティでは「Gemma 4 はドイツ語・アラビア語・ベトナム語・フランス語で Qwen 3.5 を上回る」という報告が多数あり、多言語タスクは Gemma 4 優位。日本語タスクでも同様の傾向が見られ、翻訳・要約系は Gemma 4 の方が自然な出力を生成しやすいという感触があります。
エンタープライズ文書抽出
比較対象として Granite 4.0 Vision を持ち出すと、ポジショニングが明確に変わります。Granite は 3B の小型モデル × LoRAアダプタ型 で設計されており、汎用ベンチマークの土俵ではなく 文書抽出特化(チャート→コード変換、表→HTML 変換、請求書 OCR)で評価されるべきモデルです。2–4B クラスの VAREX リーダーボードで3位という実績を持ちます。
3. 得意分野とユースケース別の最適解
3モデルを「何に使うべきか」で整理すると、選定が一気に明確になります。
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| マルチリンガルな社内チャットボット | Gemma 4 E4B / 31B | 多言語性能・マルチモーダル・Apache 2.0 |
| コーディングエージェント / 開発支援 | Qwen 3.5 35B-A3B | LiveCodeBench・Codeforces で優位 |
| 請求書・契約書からのデータ抽出 | Granite 4.0 3B Vision | 構造化抽出に特化、低コストで本番投入可能 |
| スマホ・エッジデバイスでの推論 | Gemma 4 E2B | NVIDIA Jetson 対応、約4GB RAM で動作 |
| 400B 超のクラウド推論 | Qwen 3.5 397B-A17B | ラインナップで最大規模 |
| 軽量なマルチモーダル検証 | Gemma 4 E2B / Granite 4.0 Vision | いずれも小型で実験コストが低い |
4. 運用コストとハードウェア要件
最低動作環境
| モデル | VRAM 目安(4bit 量子化) | 推奨 GPU |
|---|---|---|
| Gemma 4 E2B | 3〜4GB | ノート PC / Jetson / M2 Mac |
| Gemma 4 E4B | 5〜6GB | RTX 3060 12GB |
| Gemma 4 26B A4B(MoE) | 15〜18GB | RTX 4090 / A5000 |
| Gemma 4 31B Dense | 20〜24GB | RTX 3090 / 4090 |
| Qwen 3.5 35B-A3B | 20〜24GB | RTX 3090 / 4090 |
| Granite 4.0 3B Vision | 6〜8GB(ベース + アダプタ) | RTX 3060 / 3090 |
コミュニティで指摘されている重要な注意点として、Gemma 4 の MoE モデル(26B A4B)は Qwen 3.5 の同等 MoE より推論スループットが遅い という報告があります。本番導入時は llama.cpp / vLLM でのベンチマークを必ず実施してください。
コスト比較の考え方
オープンモデルは「ライセンス料ゼロ」ですが、実際の運用コストは GPU 時間 × 推論スループット で決まります。MoE の効率を期待して Gemma 4 26B A4B を選んだ結果、想定よりスループットが出ずコストが膨らむケースも報告されているため、PoC 段階で必ず 同一ワークロードでの実測 を行いましょう。
選定フローチャート
実際に選ぶときは、以下の順で判断するとブレません。
- 文書抽出が主目的か? → Yes なら Granite 4.0 Vision、No なら次へ
- コーディング・開発支援が主目的か? → Yes なら Qwen 3.5 35B-A3B、No なら次へ
- エッジデバイス(スマホ・組込)で動かすか? → Yes なら Gemma 4 E2B/E4B、No なら次へ
- 多言語性能を重視するか? → Yes なら Gemma 4 31B、No なら Qwen 3.5 35B-A3B
- 推論スループットを重視するか? → MoE よりも Dense モデル(Gemma 4 31B Dense / Qwen 3.5 Dense 系)
まとめ
2026年春の中規模オープンモデルは、もはや「最強の1本」を探す時代ではなく 得意分野別に使い分ける時代 に入りました。
- Gemma 4 — 多言語・マルチモーダル・エッジ推論の万能選手
- Qwen 3.5 — コーディング・エージェント用途の実力派
- Granite 4.0 Vision — 企業文書抽出に特化したスペシャリスト
3モデルともに Apache 2.0 ライセンスで商用利用に制約がないため、まず複数モデルを並行で試すことが選定の近道 です。PoC を1週間走らせ、自社ワークロードでのベンチマーク結果をもとに判断するアプローチを強く推奨します。
AI エージェントの制御設計については ハーネスエンジニアリング入門、MCP との組み合わせ方は MCP 完全ガイド も併せてご覧ください。
参考ソース