ニュース

日本語の文字起こしAIサービス「Rimo Voice」提供開始、1時間の音声を5分でテキスト化、句読点も自然に挿入

「Rimo Voice」

 Rimo合同会社は、AIによる音声のテキスト化サービス「Rimo Voice」を提供開始した。録音済みの音声ファイルをウェブブラウザーから送信すると、1時間の音声を5分程度でテキスト化できる。料金プラン(税別)は、完全従量制で30秒20円の「スポット利用」と、月額10万円で40時間まで利用できる「定額制」の2つが用意されている。なお、定額制の最低契約期間は3カ月。いずれも初期費用は不要。

 通常、1時間の音声をテキスト化する作業を人間が行うと、2時間から3時間程度かかるという。しかし、Rimo Voiceは、1時間の音声を約5分でテキスト化。その後、テキストを出力してユーザーが確認と修正を行うため、作業は1時間程度で完了するとしている。

 精度が高いのも特徴だ。Rimo Voiceは日本語に特化した自然言語処理技術を使用しており、音声からテキスト化への精度は高いという。例として、雑音がない環境でアナウンサーのような滑舌が良い人という理想的な環境では97%、雑音、滑舌、複数の人の声が被さる、固有名詞などが含まれても8割程度となっている。

 ただし、Rimo Voiceであってもテキスト化は誤りが発生する。その修正をサポートするため、音声とテキストは同期されており、テキスト化が終わったあとにウェブブラウザーで編集の画面を開き、誤りがある単語をクリックすると、その部分の音声が再生される。また、認識があいまいな部分は色が薄く表示されるため、テキスト化後の修正も効率よく行える。

 このテキスト化されたファイルと音声は、ウェブにアップロードされているため、会議で使用する場合は、参加者が議事録の代わりとして確認ができるとしている。

スマートフォン向けの記事録
PC向けの議事録

 なお、サービスの開始前にトライアルとして導入した事例もあり、「スピーディーかつ精度が高い」「句読点が自動反映されている」「業界用語も他サービスに比べて精度高く文字起こしすることができる」「気になるテキストをクリックするとその箇所から音声が再生される」といった声が寄せられているという。

 今後、Rimo Voice内でのテキスト編集、録画データの文字化、Rimoによる人間による作業で修正を行うオプションサービスの提供も予定されている。