ニュース
rinna、日英バイリンガルの大規模言語モデル4種を公開
2023年8月2日 06:50
rinna株式会社は7月31日、日本語と英語のバイリンガル大規模言語モデル(LLM)を公開した。AI・機械学習に関する学習済みモデルなどの共有サービス「Hugging Face」でダウンロードできる。
約40億パラメータを持ち、日本語と英語のテキストを生成可能。学習データにはオープンデータセットを用いており、割合は英語56%、日本語33%、ソースコード11%。LLMとしては少量のパラメータ数であるため、推論や追加学習を、一般的なPCのGPUでも実行可能だとしている。
公開されたのは汎用言語モデル(基盤モデル)と、追加学習を行った3モデルの全4種。いずれも、商用利用も可能なライセンスでオープンソースとして公開されている。
汎用言語モデル(rinna/bilingual-gpt-neox-4b)
汎用言語モデル(基盤モデル)。約40億パラメータを持つ日本語と英語のバイリンガルGPTであり、日本語と英語のテキスト生成が可能。
長期コンテキストモデル(rinna/bilingual-gpt-neox-4b-8k)
汎用言語モデルに対して、より長いテキストの入力を可能にする追加学習を行ったもの。入力トークンの上限が2048から8192トークンまで拡大されている。
対話言語モデル(rinna/bilingual-gpt-neox-4b-instruction-sft)
汎用言語モデルに対して、対話形式でユーザーの指示に応えるデータを用いてSFT(教師あり微調整)追加学習を行ったもの。対話形式のテキスト生成が可能。