ニュース

NTT、音声変換の新技術。「中間特徴量」に着目して高品質・低遅延を実現

仮想空間でのコミュニケーション、発音のサポートなど、多様な応用に期待

 日本電信電話株式会社(NTT)は6月17日、高品質と低遅延を両立した深層学習に基づく、リアルタイム音声変換技術を開発したと発表した。新規に考案した音声特徴量(声質、抑揚、リズムといった声の特徴データ)の抽出処理により、高音質かつ低遅延の処理が可能になったという。

 本機能の利用シーンとしては、メタバースで自身が使うアバターに似合う声に変換する、コールセンターで顧客の声を聞き取りやすく変換する、といったことが挙げられている。そのほか、発声機能障がいを持つ人のサポート、外国語の発音をネイティブに近いものへ調整、緊張による声の震えの解消、スピーチにおける声を説得力のあるものにする、などの多様なシーンにおいて、音声コミュニケーションを豊かにすることが期待されるとしている。

 今回開発された技術のポイントとして、NTTでは、「中間特徴量」に着目した技術による高い変換性能と、低遅延な変換処理の2点を挙げている。

話者固有の情報を極力排除し、理想的な中間特徴量を得る

 音声変換は、音声特徴量を抽出・変換することで行われ、これを特徴量変換と呼ぶ。音声変換のための装置である特徴量変換器は、話者の声の入力を受けて「中間特徴量」を抽出するEncoder、中間特徴量に目標話者(変換後の声)の情報を付与するDecoderの2つのモジュールで構成され、変換においては、Encoderの出力である中間特徴量が、十分に汎化された特徴量であることが重要となる。

 異なる話者が同じ内容を発声した際には、同じ中間特徴量が抽出されることが望ましい。しかし、従来の技術では、上記のケースでも実際には同じ中間特徴量が得られておらず、話者固有の情報が残っていたことを発見したという。

 そこで、今回の技術では、十分な汎化のために、異なる話者が同じ内容を発声したデータを疑似的に生成し、入力された音声と、疑似的に生成した音声の中間特徴量を近づける制約を導入した。

 これにより、話者固有の情報の残留が、従来の方法に比べて1万分の1以下に低減。その結果、高品質な特徴量変換を実現できた。

特徴量変換のイメージ

変換に「未来の音声」を使わないことで低遅延を実現、高品質と両立

 会話する際、人は自分の話し声を聞きながら発声しており、この声のことを「フィードバック音声」と呼ぶ。フィードバック音声をわざと大きく遅らせると、非常に発話しづらくなることが知られており、スムーズな発話のためには、音声変換による遅延を数十ミリ秒に抑えることが必要だという。

 一般的な音声変換では、変換精度を高めるために、当該時刻の入力音声フレームだけでなく、未来の入力音声フレームもあわせて長い時間の音声を使用するnon-causalモデルを用いる。この場合、未来の音声を待つための遅延が生じてしまう。

 今回の技術では、未来の入力音声フレームを使わないcausalモデルを採用。causalモデルを単純に使うと入力データの不測から変換精度が低下するが、音声変換の性能が向上したことから、高品質と低遅延を両立できたという。

non-causalモデルとcausalモデル

 NTTでは、今回の技術により変換した音声の品質を、音質に関して5段階、目標話者との話者類似性に関して4段階の評価尺度により聴取実験を行った。結果、両方の点で、従来の手法を大きくしのぐ結果となり、今回の技術が有効であることが分かったとしている。

聴取実験の結果

 この技術は、6月24日~26日に大阪で実施される「コミュニケーション科学基礎研究所オープンハウス2024」に出展される。