Google、ネイティブ・マルチモーダル埋め込みモデル「Gemini Embedding 2」を発表 | GH Media
URLがコピーされました

Google、ネイティブ・マルチモーダル埋め込みモデル「Gemini Embedding 2」を発表

URLがコピーされました
Google、ネイティブ・マルチモーダル埋め込みモデル「Gemini Embedding 2」を発表

Googleは、Geminiアーキテクチャを基盤とした新しい埋め込みモデル 「Gemini Embedding 2」 を発表しました。今回の最大のポイントは、テキスト専用ではなく、テキスト・画像・動画・音声・文書を1つの埋め込み空間で扱えるネイティブ・マルチモーダル設計であることです。

動画出典: Google Blog「Gemini Embedding 2: Our first natively multimodal embedding model」

発表のポイント

Gemini Embedding 2 では、これまでモダリティごとに分かれがちだった検索・分類パイプラインを、より統一的に設計しやすくなります。Googleの説明では、以下の特徴が示されています。

  • Public Preview で提供開始(Gemini API / Vertex AI)
  • 100以上の言語でセマンティック意図を表現
  • 画像+テキストのようなインターリーブ入力を1リクエストで処理
  • Matryoshka Representation Learning(MRL)により、次元を可変化
    • 推奨次元: 3072 / 1536 / 768

Gemini Embedding 2 のベンチマーク比較

画像出典: Google Blog「Gemini Embedding 2: Our first natively multimodal embedding model」

何がうれしいのか

実務面では、マルチモーダルRAG、セマンティック検索、感情分析、クラスタリングといった用途で、入力データの種類が混在していても同一方針で処理しやすくなるのが利点です。

とくに、画像・音声・文書を横断した検索要件があるプロダクトでは、検索基盤の設計をシンプルにできる可能性があります。

連携エコシステム

Googleは利用先として、LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Vector Search などを挙げています。既存のベクトル検索スタックへ組み込みやすい点も、導入検討のしやすさにつながります。

まとめ

Gemini Embedding 2 は、単なる精度向上にとどまらず、**「マルチモーダル前提の埋め込み基盤」**という方向性を明確に示した発表です。マルチメディアデータを扱うAIアプリでは、今後の標準的な選択肢の1つになるか注目です。


出典

URLがコピーされました

グリームハブ株式会社は、変化の激しい時代において、アイデアを形にし、人がもっと自由に、もっと創造的に生きられる世界を目指しています。

記事を書いた人
照屋 塁
照屋 塁

ITベンチャー創業の元社会人野球選手。変化の早い世の中の波に乗り、世の中に価値あるサービスを出していきたい!と思い会社を設立

関連記事