ニュース

100億パラメーターのバイリンガル大規模言語モデル「Weblab-10B」公開、東大松尾研究室が公開

三好修太

2023年8月23日 16:15

　東京大学大学院工学系研究科技術経営戦略学専攻松尾研究室（松尾研）は、100億パラメーターの日英2カ国語に対応した大規模言語モデル（LLM）「Weblab-10B」を公開した。AI・機械学習に関する学習済みモデルなどの共有サービス「Hugging Face」からダウンロードできる。

　同モデルは、日本語の精度を高めることを目的に開発されたもの。事前学習には代表的な英語のデータセット「The Pile」および、日本語のデータセット「Japanese-mC4」を使用したという。事後学習（ファインチューニング）には、「Alpaca」（英語）、「Alpaca」（日本語訳）、「Flan 2021」（英語）、「Flan CoT」（英語）、「Flan Dialog」（英語）の5つのデータセットを使用している。ファインチューニングの日本語データ比率が低いにも関わらず、JGLUE評価値は事前学習時と比べて66％から78％に改善し、国内の公開モデルとしては最高水準のものだとしている。

　同研究室によれば、近年の大規模言語モデルは、インターネットから収集した大量のテキストデータを学習に用いるが、テキストデータの多くが一部の主要言語（例えば英語）で構成されており、それ以外の日本語などのテキストデータを大量収集することに限界があったという。そこで、日本語と英語両方の言語を学習に用いて学習データ量を拡張し、言語間の知識転移を行うことにより、日本語の精度を高めることを目的として、同モデルを開発したとしている。

　公開されたのは事前学習済みモデルと、ファインチューニング済みモデルの2種。いずれも、商用利用は不可としている。

同研究室が公開した公開モデル比較表

生成サンプル