Googleは、Geminiアーキテクチャを基盤とした新しい埋め込みモデル 「Gemini Embedding 2」 を発表しました。今回の最大のポイントは、テキスト専用ではなく、テキスト・画像・動画・音声・文書を1つの埋め込み空間で扱えるネイティブ・マルチモーダル設計であることです。
動画出典: Google Blog「Gemini Embedding 2: Our first natively multimodal embedding model」
発表のポイント
Gemini Embedding 2 では、これまでモダリティごとに分かれがちだった検索・分類パイプラインを、より統一的に設計しやすくなります。Googleの説明では、以下の特徴が示されています。
- Public Preview で提供開始(Gemini API / Vertex AI)
- 100以上の言語でセマンティック意図を表現
- 画像+テキストのようなインターリーブ入力を1リクエストで処理
- Matryoshka Representation Learning(MRL)により、次元を可変化
- 推奨次元: 3072 / 1536 / 768

画像出典: Google Blog「Gemini Embedding 2: Our first natively multimodal embedding model」
何がうれしいのか
実務面では、マルチモーダルRAG、セマンティック検索、感情分析、クラスタリングといった用途で、入力データの種類が混在していても同一方針で処理しやすくなるのが利点です。
とくに、画像・音声・文書を横断した検索要件があるプロダクトでは、検索基盤の設計をシンプルにできる可能性があります。
連携エコシステム
Googleは利用先として、LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Search などを挙げています。既存のベクトル検索スタックへ組み込みやすい点も、導入検討のしやすさにつながります。
まとめ
Gemini Embedding 2 は、単なる精度向上にとどまらず、**「マルチモーダル前提の埋め込み基盤」**という方向性を明確に示した発表です。マルチメディアデータを扱うAIアプリでは、今後の標準的な選択肢の1つになるか注目です。