Gemma 4とは? — オープンモデル史上最大の世代改善
2026年4月2日、GoogleはオープンモデルGemmaシリーズの最新版「Gemma 4」をリリースしました。Apache 2.0ライセンスで商用利用も無料、ロイヤリティ不要という条件はそのままに、前世代のGemma 3から飛躍的な性能向上を遂げています。
特に注目すべきは、テキスト・画像・音声のマルチモーダル対応と、スマートフォンやノートPCでも動作するオンデバイス推論の実現。「クラウドに依存しないAI活用」の選択肢として、開発者からビジネスユーザーまで幅広い関心を集めています。
モデルラインナップと性能
Gemma 4は用途に応じた4つのバリエーションを提供しています。
| モデル | パラメータ | 推論時アクティブ | コンテキスト長 | モダリティ |
|---|---|---|---|---|
| E2B | 5.1B | 2.3B | 128K | テキスト・画像・音声 |
| E4B | 8B | 4.5B | 128K | テキスト・画像・音声 |
| 26B A4B(MoE) | 25.2B | 3.8B | 256K | テキスト・画像 |
| 31B Dense | 30.7B | 30.7B | 256K | テキスト・画像 |
MoE(Mixture of Experts) アーキテクチャを採用した26B A4Bモデルは、推論時に全パラメータの約15%(3.8B)のみを使用。31B Denseモデルの97%の品質を、8分の1の計算コストで実現するという驚異的な効率です。
ベンチマークの進化
前世代からの改善幅は劇的です。
| ベンチマーク | Gemma 3 27B | Gemma 4 31B | 改善幅 |
|---|---|---|---|
| MMLU Pro | 67.6% | 85.2% | +17.6pt |
| AIME 2026 | 20.8% | 89.2% | +68.4pt |
| GPQA Diamond | — | 84.3% | — |
| LiveCodeBench v6 | — | 80.0% | — |
数学的推論(AIME)で68ポイント以上の改善という数字は、単なるバージョンアップではなく世代の飛躍といえるでしょう。
ローカルで動かしてみよう
Gemma 4の魅力は「手元で動かせる」こと。代表的な3つの方法を紹介します。
Ollama(最も手軽)
# インストール済みなら1コマンド
ollama pull gemma4
ollama run gemma4
量子化済みモデルが自動でダウンロードされ、すぐに対話を開始できます。E2Bモデルなら約4GBのRAMで動作します。
llama.cpp(細かい制御が必要な場合)
# macOS
brew install llama.cpp
# GGUF量子化モデルを直接指定して起動
llama-server -hf ggml-org/gemma-4-E2B-it-GGUF
APIサーバーとして起動するため、他のアプリケーションからHTTP経由で利用できます。
MLX(Apple Siliconユーザー向け)
pip install -U mlx-vlm
# 4bit量子化で約8GBメモリで動作
mlx_vlm.generate \
--model google/gemma-4-E4B-it \
--kv-bits 3.5 \
--prompt "この画像を説明してください" \
--image photo.jpg
M1/M2/M3チップの統合メモリを最大限に活用でき、マルチモーダル(画像入力)もそのまま利用可能です。
ビジネス・開発での活用シーン
オンデバイスAIエージェント
NVIDIAのRTXシリーズ向けに最適化されており、ローカル環境でのAIエージェント実行が現実的に。機密データをクラウドに送信せずにAI処理が完結するため、セキュリティ要件が厳しい業務にも適しています。
マルチモーダルドキュメント処理
1つのモデルで画像認識、OCR、チャート理解、テキスト生成をこなせるため、請求書の読み取りから議事録の要約まで、複数のAPIを組み合わせていた処理を統合できます。
多言語対応(140以上の言語)
グローバル展開しているサービスで、言語ごとにモデルを用意する必要がなくなります。日本語の処理品質も前世代から大幅に向上しています。
モバイルアプリ組み込み
Android AICore統合に対応しており、スマートフォンアプリにオンデバイスAIを組み込むハードルが下がりました。E2Bモデルはブラウザ上のWebGPU推論にも対応しています。
競合モデルとの比較
| 項目 | Gemma 4 26B | Llama 3.3 70B | Phi-4 14B |
|---|---|---|---|
| 推論時パラメータ | 3.8B | 70B | 14B |
| マルチモーダル | テキスト・画像 | テキストのみ | テキスト・画像 |
| コンテキスト長 | 256K | 128K | 16K |
| ライセンス | Apache 2.0 | Llama Community | MIT |
| 音声対応 | E2B/E4Bのみ | 非対応 | 非対応 |
パラメータ効率で見るとGemma 4のMoEモデルは圧倒的です。3.8Bのアクティブパラメータで、70BクラスのモデルにMMLU Proで匹敵するスコアを出しています。
まとめ
Gemma 4は「オープンモデルでもここまでできる」を証明するリリースです。特にMoEアーキテクチャによるパラメータ効率の良さは、ローカル実行のハードルを大きく下げました。
- まず試すなら:
ollama run gemma4の1コマンドで体験 - 本格的に使うなら: llama.cppでAPIサーバー化し、既存システムに統合
- Apple Siliconなら: MLXで画像入力を含むマルチモーダル処理を手元で
クラウドAPIの料金やレイテンシ、プライバシーの課題を感じている開発者にとって、Gemma 4は有力な選択肢になるでしょう。
AIの業務活用に関心がある方は、ChatGPT業務活用ガイドやGoogle Workspace Gemini AI活用ガイドもあわせてご覧ください。