ニュース

rinna、日本語特化の基盤モデルを組み合わせた音声認識モデル「Nue ASR」を公開

 rinna株式会社は12月7日、日本語音声認識モデル「Nue ASR」を開発し、Hugging Faceにて商用利用可能なライセンス「Apache-2.0 License」で公開した。

 同社がこれまでに開発・公開している、いずれも日本語に特化した音声基盤モデル「HuBERT」と、テキスト基盤モデル「GPT」を統合して開発されたもので、話し言葉を認識し、文章に変換する。モデル名は、妖怪の「鵺(ぬえ)」に由来する。

 事前学習済みの基盤モデルを活用することで学習コストを軽減でき、テキスト生成の分野でデファクトスタンダードとなっているGPT構造を用いることで、活発に開発されている最先端の手法を容易に導入可能だとしている。

 音声認識モデルの学習データには、レアゾン・ホールディングスの約1万9000時間からなる日本語音声コーパス「ReazonSpeech」が用いられており、GPTの高速推論手法である「DeepSpeed」を導入することで、音声認識におけるリアルファイムファクタ(RTF:認識時間÷音声の長さで算出)を0.22から0.15に短縮した。また、国立国語研究所言語資源開発センターのCSJ(Corpus of Spontaneous Japanese:日本語話し言葉コーパス)を用いたファインチューニングにより、CSJ Eval1テストセットの文字誤り率は、30.93%から5.43%に改善したという。

日本語音声認識ベンチマークのスコア。認識率や処理速度は、利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵するとしている

 rinnaでは、Nue ASRの公開が、今後より活発になると考えられる基盤モデルを活用したAI開発の参考になれば、としている。