ニュース

100億パラメーターのバイリンガル大規模言語モデル「Weblab-10B」公開、東大松尾研究室が公開

 東京大学大学院工学系研究科技術経営戦略学専攻松尾研究室(松尾研)は、100億パラメーターの日英2カ国語に対応した大規模言語モデル(LLM)「Weblab-10B」を公開した。AI・機械学習に関する学習済みモデルなどの共有サービス「Hugging Face」からダウンロードできる。

 同モデルは、日本語の精度を高めることを目的に開発されたもの。事前学習には代表的な英語のデータセット「The Pile」および、日本語のデータセット「Japanese-mC4」を使用したという。事後学習(ファインチューニング)には、「Alpaca」(英語)、「Alpaca」(日本語訳)、「Flan 2021」(英語)、「Flan CoT」(英語)、「Flan Dialog」(英語)の5つのデータセットを使用している。ファインチューニングの日本語データ比率が低いにも関わらず、JGLUE評価値は事前学習時と比べて66%から78%に改善し、国内の公開モデルとしては最高水準のものだとしている。

 同研究室によれば、近年の大規模言語モデルは、インターネットから収集した大量のテキストデータを学習に用いるが、テキストデータの多くが一部の主要言語(例えば英語)で構成されており、それ以外の日本語などのテキストデータを大量収集することに限界があったという。そこで、日本語と英語両方の言語を学習に用いて学習データ量を拡張し、言語間の知識転移を行うことにより、日本語の精度を高めることを目的として、同モデルを開発したとしている。

 公開されたのは事前学習済みモデルと、ファインチューニング済みモデルの2種。いずれも、商用利用は不可としている。

同研究室が公開した公開モデル比較表
生成サンプル