ニュース

rinna、日本語LLM「Youri 7B」シリーズを公開。Llama 2を日本語データで継続事前学習

 rinna株式会社は10月31日、米Metaが提供する「Llama 2」に日本語の学習データで継続事前学習を行った「Youri 7B」シリーズを開発し、公開した。

 同社ではこれまで、独自開発した日本語LLMなども公開している。今回は、高い性能を持つ事前学習済みLLMをベースとした特定タスクや他言語への適応が検討され大きな成果をあげており、高性能な英語テキストの生成能力を持つLlama 2をもとにした、さまざまな研究・開発が行われていることに着目。英語が主な学習データであるLlama 2 7Bに、日本語の学習データを用いて継続事前学習を行い、高い日本語のテキスト生成能力を持った「Youri 7B」を開発した。モデル名は、妖怪の「妖狸(ようり)」に由来するという。

 汎用言語モデルであるYouri 7Bに、対話形式でユーザーの指示を遂行するための追加学習をした「Youri 7B Instruction」と「Youri 7B Chat」を開発。前者は日本語の一問一答に応える能力が高く、ベンチマークにおいて高いスコアを達成。後者は、複数ターンの対話データを用いて追加学習しているため対話性能が高いモデルだとしている。

 加えて、上記3モデルを、省メモリの GPU でも利用できるように「GPTQ」という手法で 4bit 量子化した軽量モデルも公開した。ライセンスはいずれもLlama 2 Community Licenseを継承している。

 Youri 7Bは、70億パラメータを2兆トークンで学習したLlaMa2 7Bに対して、日本語と英語の学習データを用いて400億トークンで継続事前学習をしたモデル。LlaMa 2のパフォーマンスを日本語にも引き継ぎ、日本語のタスクにおいて高い性能を示している。日本語言語モデルの性能を評価するためのベンチマークのひとつ「Stability-AI/lm-evaluation-harness」での8タスク平均スコアは58.87。

日本語言語モデルベンチマークStability-AI/lm-evaluation-harnessのスコア