ニュース

Google、次世代AIモデル「Gemini 1.5」発表。最大100万トークン対応、複数モダリティの理解向上など

 Googleは2月16日、同社のAIモデルの新バージョン「Gemini 1.5」を発表した。

 同社は、2023年12月に新しいAIモデル「Gemini」を発表し、AIチャットサービス「Bard」の名称も「Gemini」に改称。同社製のAIモデルおよびサービスの名称を「Gemini」に統一していた。

 Geminiは、安全性を重視しながら急速な機能改善が進められているという。GeminiにはUltra/Pro/Nanoの3段階のモデルがあるが、初期テスト用として公開されるGemini 1.5 Pro(中位モデル)は、従来のGemini 1.0 Ultra(上位モデル)と同等のクオリティを、より少ないコンピューティングで担保できるとしている。

 Gemini 1.5 Proは12万8000トークン(トークンはAIモデルが認識する情報の単位)のコンテキストウィンドウが標準で付属し、開発ツール「AI Studio」と機械学習プラットフォーム「Vortex AI」において、一部の開発者と企業ユーザー向けに提供が開始されている。限定プレビュー版では、最大100万トークンのコンテキストウィンドウも試用できるが、計算量が多く、レイテンシー改善のためにさらなる改善が必要だとしている。

 同社では、Gemini 1.5の特徴として、次の5点を挙げている。

1.高効率なアーキテクチャ

 TremsformerおよびMoEアーキテクチャに関する、最先端の研究に基づいて構築されたモデルである。

2.より拡張されたコンテキストと役立つ新機能

 先述の通り、最大100万トークンに対応(Gemini 1.0では3万2000トークン)。トークンは単語、画像、動画、音声、またはコードの全体または一部にすることができ、多くの情報を取り込んで処理可能になったことで、出力の関連性・有用性が高まるとしている。

 また、研究では最大1000万トークンのテストにも成功しているという。

3.膨大な情報に関する複雑な推論が可能に

 例えば、アポロ11号の月面着陸に対する402ページの記録に基づいて、文書内にある会話、出来事、画像、詳細について推論するなど、プロンプト内の大量のコンテンツをシームレスに分析、分類、要約できる。

Gemini 1.5 Proデモ:402ページの記録に基づく推論

4.複数のモダリティの相互理解と推論の向上

 動画など、さまざまなモダリティ(AIモデルにおけるモダリティとは、動画、画像、テキストといった情報の種類のことを指す)に対する高度な理解と推論が可能。例えば、44分間のバスター・キートンの無声映画に対して、プロットや出来事を正確に分析し、作中の小さなことがらについても推論できるという。

Gemini 1.5 Proデモ:44分の動画(マルチモーダルプロンプト)の理解と推論

5.パフォーマンスの向上

 Gemini 1.5 Proは、大規模言語モデル (LLM) の開発に使用されるベンチマークの87%で Gemini 1.0 Pro を上回り、同じベンチマークでGemini 1.0 Ultraとほぼ同様のレベルのパフォーマンスを発揮する。また、コンテキストウィンドウが増加しても高いレベルでパフォーマンスを発揮し、プロンプトで提供される情報から学習する「インコンテキスト学習」においても、優れた能力を有しているという。