ニュース

rinna、日英バイリンガルの大規模言語モデル4種を公開

 rinna株式会社は7月31日、日本語と英語のバイリンガル大規模言語モデル(LLM)を公開した。AI・機械学習に関する学習済みモデルなどの共有サービス「Hugging Face」でダウンロードできる。

 約40億パラメータを持ち、日本語と英語のテキストを生成可能。学習データにはオープンデータセットを用いており、割合は英語56%、日本語33%、ソースコード11%。LLMとしては少量のパラメータ数であるため、推論や追加学習を、一般的なPCのGPUでも実行可能だとしている。

 公開されたのは汎用言語モデル(基盤モデル)と、追加学習を行った3モデルの全4種。いずれも、商用利用も可能なライセンスでオープンソースとして公開されている。

汎用言語モデル(rinna/bilingual-gpt-neox-4b)

 汎用言語モデル(基盤モデル)。約40億パラメータを持つ日本語と英語のバイリンガルGPTであり、日本語と英語のテキスト生成が可能。

長期コンテキストモデル(rinna/bilingual-gpt-neox-4b-8k)

 汎用言語モデルに対して、より長いテキストの入力を可能にする追加学習を行ったもの。入力トークンの上限が2048から8192トークンまで拡大されている。

対話言語モデル(rinna/bilingual-gpt-neox-4b-instruction-sft)

 汎用言語モデルに対して、対話形式でユーザーの指示に応えるデータを用いてSFT(教師あり微調整)追加学習を行ったもの。対話形式のテキスト生成が可能。

対話言語モデルの使用例

画像対話モデル(rinna/bilingual-gpt-neox-4b-minigpt4)

 汎用言語モデルと画像認識およびテキスト生成が可能なモデルである「BLIP-2」を組み合わせた追加学習を行ったもの。テキストと画像のマルチモーダル入力からのテキスト生成を実現しており、画像に対する説明を行ったりできる。

画像対話モデルの使用例