ニュース

音声合成エンジン「AITalk 4」は感情の調整が可能に、最大で“喜び”“怒り”“悲しみ”の3種

 株式会社エーアイは、音声合成エンジンの新製品「AITalk 4」シリーズを9月1日より販売すると発表した。新たに「感情調整機能」を搭載し、“喜び”“怒り”“悲しみ”という最大で3種類の感情を音声合成の際に付与することが可能になった。

株式会社エーアイの吉田大介代表取締役

 エーアイの吉田大介代表取締役によると、同社の音声合成エンジンは、「Yahoo! 音声アシスト」やNTTドコモの「しゃべってキャラ」といったアプリ、AHSの読み上げソフト「VOICEROID」シリーズをはじめ、ソフトバンクの感情認識パーソナルロボット「Pepper」、大阪大学および国際電気通信基礎技術研究所の石黒浩特別研究所により開発された遠隔操作型アンドロイド「ジェミノイド」、駅や空港、博物館、イベントなどの館内放送、「J-ALERT」などの防災システム、ナビシステムやアルコール測定器といった組込機器まで広く活用されている。

 ただし、従来のAITalkの音声合成エンジンでは、ナレーションのような用途では滑らかで自然な発声が可能だったが、しゃべり方が単調なためにセリフなどの表現は苦手。また、対話型ロボットなどに会話させる場合にも不自然だったという。それが新機能の感情調整機能により、こよりも幅広い用途での活用が期待できるとしている。

 AITalkシリーズでは、日本語・英語・中国語などを含む15言語以上に対応。計40人以上の話者による音声合成エンジンを提供している。このうち日本語の話者は15人いるが、女性の「のぞみ」「まき」「れいな」と男性の「たいち」の4人が感情調整機能を搭載した。

 通常の音声合成に加えて、「のぞみ」と「まき」では“喜び”“怒り”“悲しみ”の3種類、「れいな」と「たいち」では“喜び”に対応。音声合成画面にそれぞれのパラメーターのスライダーが用意され、感情を調整することが可能だ。

感情調整機能に対応した話者4人
「AITalk 4 声の職人」の画面
新機能の「感情調整機能」。“喜び”“怒り”“悲しみ”のパラメーターの合計が「1.0」になる範囲で、それぞれの感情をブレンドすることも可能

 感情調整は、それぞれの感情に対応した音声合成用の辞書を用意することで実現している。

 AITalkシリーズでは、話者ごとの音声合成エンジンを作成するにあたり、一定の原稿を話者に読み上げてもらい、その音声データから特徴を学習して「音素片辞書」と「韻律辞書」からなる音声辞書(音声コーパス)を作成。入力されたテキストデータの読みやアクセントを解析した上で、音声辞書から適切な音素を選択し、波形として接続して音声出力している。

 さらにAITalk 4では、話者に“喜び”“怒り”“悲しみ”の感情を込めた状態で読み上げてもらい、その音声データをベースにそれぞれの感情に対応する音声辞書を作成したという。今後、他の話者についても感情調整機能のための音声辞書を整備していく予定だ。

「AITalk 4」のデモサイトでは、実際に感情調整機能を使った音声合成を試せる

 AITalk 4シリーズは、Windows 10/8.1/8/7対応の音声ファイル合成ソフト「AITalk 4 声の職人」と、組み込み用音声合成エンジンの「AITalk 4 SDK」をラインナップする。

 AITalk 4 声の職人の価格(税別)は、1年利用ライセンスが59万6000円、1年利用ライセンスの追加購入が9万6000円、5年利用ライセンスが88万4000円、5年利用ライセンスの追加購入が38万4000円。ただし、9月30日までの発注分についてはそれぞれキャンペーン割引価格となり、1年利用ライセンスが34万6000円、1年利用ライセンスの追加購入が5万円、5年利用ライセンスが50万円、5年利用ライセンスの追加購入が20万円。

 8月3日に行われた新製品発表会では、「筆談ホステス」の著者で東京都北区議会議員の斉藤りえ氏がビデオメッセージを寄せた。斉藤氏は議会での発言にAITalkの既存製品を利用しており、新機能の感情調整機能に期待を寄せた。

 また、マツコ・デラックスさんを再現したアンドロイド「マツコロイド」を開発したことでも知られる株式会社エーラボから、美少女アンドロイドのアスナさんも出席。AITalk 4による感情調整機能の音声合成をデモした。

美少女アンドロイドのアスナさんによる「AITalk 4」感情表現機能のデモ。ただし、合成音声はアスナさん本人の声ではなく、「AITalk 4」の話者の声によるもの

(永沢 茂)