MENU

Gemini — Google DeepMindが束ねるマルチモーダル基盤モデル

Gemini アイキャッチ
Gemini

GeminiはGoogle DeepMindが開発し、2023年12月に発表されたGoogle純正の大規模言語モデルファミリーです。従来Googleが軸にしてきたPaLM/PaLM 2系の後継として位置付けられ、テキスト・画像・音声・動画・コードを最初から同じモデルで扱うネイティブ・マルチモーダル設計が大きな特徴です。Ultra・Pro・Nanoの3サイズで投入され、2024年にはGemini 1.5、Gemini 2.0 Flashへと世代交代しています。GoogleはGeminiを検索(AI Overviews)、Workspace、Pixel端末、Android、Chromeへ広く埋め込み、自社プロダクトを横断する基盤モデルに位置付けています。

目次

この記事の目次

  1. Ultra・Pro・Nanoの3サイズ
  2. PaLM後継としての歴史
  3. Googleプロダクトへの組み込み
  4. Claude・GPT-4との立ち位置
  5. まとめ

Ultra・Pro・Nanoの3サイズ

Ultra・Pro・Nanoの3サイズ

Geminiは公開当初から、計算資源と用途に応じて3つのサイズが用意されました。最上位のUltraはMMLUなどのベンチマークでGPT-4と並ぶスコアを目指したフラッグシップで、クラウド側のTPU v5pで動作させることを前提に設計されています。Proは検索やGemini AppなどGoogleの主要プロダクトに組み込まれる中堅モデルで、応答速度とコストのバランスを取った位置付けです。

NanoはGoogle Pixel 8 Proに搭載されたオンデバイス向けの小型モデルで、レコーダーの要約やGboardの返信候補をスマートフォン内部で生成する用途に使われます。これにより、ネット接続なしでも要約や翻訳の主要機能が動く設計が実現しています。Gemini 1.5世代ではFlash・Flash-8Bといった軽量モデルも追加され、「最大スケールから端末内まで一つのファミリーで揃える」というGoogle独自の戦略がより明確になりました。

PaLM後継としての歴史

PaLM後継としての歴史

Googleは2022年に5,400億パラメータのPaLMを公開し、続いて2023年にPaLM 2を投入してBard(後にGemini Appに改称)の頭脳として採用しました。同年4月にはGoogle Brain(Jeff Dean率いる)とDeepMind(Demis Hassabis率いる)を統合してGoogle DeepMindを発足させ、ChatGPT登場で先行を許したLLM競争を立て直すための一枚岩体制を整えました。Gemini開発はこの統合の象徴的プロジェクトです。

2023年12月6日に正式発表されたGemini 1.0は、Bardへの統合と並んでGoogle Cloud Vertex AIから提供開始されました。2024年2月のGemini 1.5 Proでは最大100万~200万トークンの超長文コンテキストを実装し、同年12月のGemini 2.0 Flashでは「マルチモーダル出力」を打ち出すなど、世代ごとに長文・速度・モダリティを拡張しています。Demis Hassabisは2024年にAlphaFoldの業績でノーベル化学賞を受賞しており、研究色の強い体制がGeminiの開発を支えている点もブランド上の特徴です。

Googleプロダクトへの組み込み

Googleプロダクトへの組み込み

Geminiの最大の特徴は、Googleの巨大なプロダクト群へ大量に埋め込まれている点です。検索結果上部のAI Overviewsは2024年から英語圏で大規模に展開され、要約付きの回答が表示されるようになりました。Google WorkspaceではGmailの返信草稿、Docsの執筆支援、Sheetsの自動分析、Slidesのデザイン提案までをGeminiが横断的に担い、有料アドオンの「Gemini for Workspace」として提供されています。

Android・Pixelでは音声アシスタント機能の中核がGoogleアシスタントからGeminiに置き換わりつつあり、Pixel 9世代では端末上のGemini Nanoで通話要約や画像説明が動きます。企業向けにはVertex AI上でGemini API・Gemini Embeddings・Gemini Code Assistなどが提供され、BigQueryやSpannerと組み合わせる「自社データ×Gemini」のRAGアーキテクチャをGoogleが直接サポートしています。プロダクト統合の幅広さこそが、ChatGPTやClaudeとの最大の差別化要因と言えます。

Claude・GPT-4との立ち位置

Claude・GPT-4との立ち位置

GeminiとGPT-4/Claudeを比較すると、ベンチマーク上の精度はGemini 1.5 Pro/2.0で大きく追いつき、Gemini 2.5 Pro世代ではコード・推論タスクでも上位グループに食い込んでいます。差別化点として最も大きいのは、設計段階からテキスト・画像・音声・動画を同じトークン空間で扱うネイティブなマルチモーダル性と、最大200万トークンに達する長文コンテキストです。

一方で、ChatGPTやClaudeに比べると、サードパーティ開発者コミュニティの厚みやプラグイン文化はまだ追いつく途上です。ただしGoogleアカウントを持つ全ユーザーへ自動的に届くというリーチは唯一無二で、「使おうと思って契約するLLM」ではなく「使っているサービスの中で勝手に動いているLLM」として日常に浸透している点が、GeminiをGPT-4/Claudeとは異なる軸で評価すべきプロダクトにしています。

まとめ

GeminiはGoogle DeepMindが2023年に投入したマルチモーダルLLMで、PaLM後継として検索・Workspace・Androidに広く組み込まれています。Ultra/Pro/Nanoと200万トークンの長文窓を武器に、GPT-4・Claudeと真正面から競う3強の一角を担っています。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次