ニュース

Google、次世代AIモデル「Gemini 1.5」発表。最大100万トークン対応、複数モダリティの理解向上など

山田貞幸

2024年2月16日 12:50

　Googleは2月16日、同社のAIモデルの新バージョン「Gemini 1.5」を発表した。

　同社は、2023年12月に新しいAIモデル「Gemini」を発表し、AIチャットサービス「Bard」の名称も「Gemini」に改称。同社製のAIモデルおよびサービスの名称を「Gemini」に統一していた。

　Geminiは、安全性を重視しながら急速な機能改善が進められているという。GeminiにはUltra/Pro/Nanoの3段階のモデルがあるが、初期テスト用として公開されるGemini 1.5 Pro（中位モデル）は、従来のGemini 1.0 Ultra（上位モデル）と同等のクオリティを、より少ないコンピューティングで担保できるとしている。

　Gemini 1.5 Proは12万8000トークン（トークンはAIモデルが認識する情報の単位）のコンテキストウィンドウが標準で付属し、開発ツール「AI Studio」と機械学習プラットフォーム「Vortex AI」において、一部の開発者と企業ユーザー向けに提供が開始されている。限定プレビュー版では、最大100万トークンのコンテキストウィンドウも試用できるが、計算量が多く、レイテンシー改善のためにさらなる改善が必要だとしている。

　同社では、Gemini 1.5の特徴として、次の5点を挙げている。

1.高効率なアーキテクチャ

　TremsformerおよびMoEアーキテクチャに関する、最先端の研究に基づいて構築されたモデルである。

2.より拡張されたコンテキストと役立つ新機能

　先述の通り、最大100万トークンに対応（Gemini 1.0では3万2000トークン）。トークンは単語、画像、動画、音声、またはコードの全体または一部にすることができ、多くの情報を取り込んで処理可能になったことで、出力の関連性・有用性が高まるとしている。

　また、研究では最大1000万トークンのテストにも成功しているという。

3.膨大な情報に関する複雑な推論が可能に

　例えば、アポロ11号の月面着陸に対する402ページの記録に基づいて、文書内にある会話、出来事、画像、詳細について推論するなど、プロンプト内の大量のコンテンツをシームレスに分析、分類、要約できる。

Gemini 1.5 Proデモ：402ページの記録に基づく推論

4.複数のモダリティの相互理解と推論の向上

　動画など、さまざまなモダリティ（AIモデルにおけるモダリティとは、動画、画像、テキストといった情報の種類のことを指す）に対する高度な理解と推論が可能。例えば、44分間のバスター・キートンの無声映画に対して、プロットや出来事を正確に分析し、作中の小さなことがらについても推論できるという。

Gemini 1.5 Proデモ：44分の動画（マルチモーダルプロンプト）の理解と推論

5.パフォーマンスの向上

　Gemini 1.5 Proは、大規模言語モデル（LLM）の開発に使用されるベンチマークの87％で Gemini 1.0 Pro を上回り、同じベンチマークでGemini 1.0 Ultraとほぼ同様のレベルのパフォーマンスを発揮する。また、コンテキストウィンドウが増加しても高いレベルでパフォーマンスを発揮し、プロンプトで提供される情報から学習する「インコンテキスト学習」においても、優れた能力を有しているという。