ニュース
Google、次世代AIモデル「Gemini 1.5」発表。最大100万トークン対応、複数モダリティの理解向上など
2024年2月16日 12:50
Googleは2月16日、同社のAIモデルの新バージョン「Gemini 1.5」を発表した。
同社は、2023年12月に新しいAIモデル「Gemini」を発表し、AIチャットサービス「Bard」の名称も「Gemini」に改称。同社製のAIモデルおよびサービスの名称を「Gemini」に統一していた。
Geminiは、安全性を重視しながら急速な機能改善が進められているという。GeminiにはUltra/Pro/Nanoの3段階のモデルがあるが、初期テスト用として公開されるGemini 1.5 Pro(中位モデル)は、従来のGemini 1.0 Ultra(上位モデル)と同等のクオリティを、より少ないコンピューティングで担保できるとしている。
Gemini 1.5 Proは12万8000トークン(トークンはAIモデルが認識する情報の単位)のコンテキストウィンドウが標準で付属し、開発ツール「AI Studio」と機械学習プラットフォーム「Vortex AI」において、一部の開発者と企業ユーザー向けに提供が開始されている。限定プレビュー版では、最大100万トークンのコンテキストウィンドウも試用できるが、計算量が多く、レイテンシー改善のためにさらなる改善が必要だとしている。
同社では、Gemini 1.5の特徴として、次の5点を挙げている。
1.高効率なアーキテクチャ
TremsformerおよびMoEアーキテクチャに関する、最先端の研究に基づいて構築されたモデルである。
2.より拡張されたコンテキストと役立つ新機能
先述の通り、最大100万トークンに対応(Gemini 1.0では3万2000トークン)。トークンは単語、画像、動画、音声、またはコードの全体または一部にすることができ、多くの情報を取り込んで処理可能になったことで、出力の関連性・有用性が高まるとしている。
また、研究では最大1000万トークンのテストにも成功しているという。
3.膨大な情報に関する複雑な推論が可能に
例えば、アポロ11号の月面着陸に対する402ページの記録に基づいて、文書内にある会話、出来事、画像、詳細について推論するなど、プロンプト内の大量のコンテンツをシームレスに分析、分類、要約できる。
4.複数のモダリティの相互理解と推論の向上
動画など、さまざまなモダリティ(AIモデルにおけるモダリティとは、動画、画像、テキストといった情報の種類のことを指す)に対する高度な理解と推論が可能。例えば、44分間のバスター・キートンの無声映画に対して、プロットや出来事を正確に分析し、作中の小さなことがらについても推論できるという。
5.パフォーマンスの向上
Gemini 1.5 Proは、大規模言語モデル (LLM) の開発に使用されるベンチマークの87%で Gemini 1.0 Pro を上回り、同じベンチマークでGemini 1.0 Ultraとほぼ同様のレベルのパフォーマンスを発揮する。また、コンテキストウィンドウが増加しても高いレベルでパフォーマンスを発揮し、プロンプトで提供される情報から学習する「インコンテキスト学習」においても、優れた能力を有しているという。