ニュース

NTT、大規模言語モデルを使った視覚読解技術を実現、図表などを含む「文書」を読めるAIに

従来のテキストベースの文書読解と、視覚読解技術の比較。視覚読解技術(右)では図中のレイアウト(位置関係)を含めて情報を理解し、質問に回答している

 日本電信電話株式会社(NTT)は4月12日、大規模言語モデル(LLM)により、図表やグラフ、文字修飾やレイアウトといった情報を含む文書を読解する、視覚読解技術を実現したと発表した。同社製のLLM「tsuzumi」のアダプタ技術として採用・導入されている。

 従来より、画像としての文書にあるテキストデータを読み取り、読解する技術はあったが、テキストの読解だけで得られない情報には対応できなかった(例えば、請求書をもとに「4月の○○の料金は?」のように文書の表中にある情報をたずねても、レイアウトから情報の関係性を推測して正確に回答することができない場合があるなど)。

 NTTが今回発表した技術では、人間が文書を理解するのと同様に、情報の位置関係なども含めて文書を視覚的に理解できる。同社ではこのような、文書を画像として捉え、視覚情報から理解して読解を行う技術を、「視覚読解技術」として提唱している。

 この技術のために行われた研究は、次のようなものだ。まず、文書画像をLLMの表現に変換可能な新しいアダプタ技術、および、多様な視覚読解タスクを対象とした指示遂行データセットを構築した。これにより、LLMが視覚情報と言語情報を融合させて文書の内容を理解し、任意のタスクを追加学習なしで遂行可能となる。例えば、例えば、文書の検索やスクリーニング、専門文献の読書補助などが可能だという。

LLMの推論能力を使った視覚読解技術の概要

 アダプタ技術は、画像中の文字および位置(座標)、画像の特徴を定量的に表現した画像情報と、指示テキストを同一空間上にマッピングし、LLMにつなぐもの。学習時には、モデルパラメータの大部分を占めるLLMや画像エンコーダーのパラメータを固定にし、アダプタのみを学習対象にすることで、パラメータ効率のいい学習を実現した。

 今回の技術のアダプタは、学習モデルに「Transformer」構造を採用。学習の際のトークンに対する注意(Attention)の向け方として、同じ系列となる入力が与えられる自己注意では指示テキストや画像中の文字および位置情報との関係性を捉え、異なる系列となる入力が与えられる相互注意では、画像の特徴との関係性を捉える。これによって、文書画像のマルチモーダルな特徴を、LLMにとって解釈しやすい情報として獲得できる。

アダプタ技術のイメージ

 そのうえで、文書画像を知識源とし、質問応答、情報抽出、文書分類を始めとした12種類の視覚読解タスクを、ヒトの指示をもとに遂行する、世界最大規模の指示遂行データセットを構築したという。

 以上によって、未学習のタスクによるベンチマークにおいて(インフォグラフィックに基づく質疑応答を行う「InfographicVQA」)、目的タスクで学習を行った教師あり学習モデルや、GPT-4(テキスト入力のみ)、画像を理解できるLLMであるLLaVAなどに匹敵、または凌駕する高い性能を達成したとしている。

視覚読解における未学習のタスクによるベンチマーク(InfographicVQA)の結果

 この研究の成果は、2023年度における東北大学の鈴木潤教授(データ駆動科学・AI教育研究センター)との共同研究の成果となる。また、この成果は、LLMベースの視覚文書読解に関する具体的な方法論を示した世界初の論文として、2月20日~27日に加バンクーバーで開催された「The 38th Annual AAAI Conference on Artificial Intelligence」(AAAI2024)で発表された。3月11日~15日に日本・神戸で開催された「自然言語処理学会第30回年次大会」(NLP2024)においては、優秀賞を受賞した。