ニュース
NTT、少ないデータから特定個人の声や口調を再現する技術を開発。大規模言語モデル「tsuzumi」に搭載
2024年1月22日 06:50
日本電信電話株式会社(NTT)は1月17日、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me」の研究開発において、同社開発の大規模言語モデル(LLM)「tsuzumi」の拡張技術として、個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」を開発したと発表した。これまでの技術に比べて少ないデータから、個人の特徴を学習し、声や口調を再現可能になる。
NTTは、「IOWN構想」の柱の1として「デジタルツインコンピューティング」(DTC)を位置付けており、Another Meの開発はその一環。tsuzumiは、軽量でありながら世界トップレベルの日本語処理性能を有することを特徴としており、2024年3月より商用サービスの提供開始を予定している。
個人性再現対話技術とZero/Few-shot音声合成技術
今回、開発された技術には、前述した個人性再現対話技術のほか、本人の数秒~数分程度の音声をもとに、本人の音声を合成できる「Zero/Few-shot音声合成技術」がある。
個人性再現対話技術は、LLMの学習方法である「アダプタ技術」と「ペルソナ対話技術」を組み合わせて、個人性を再現するためのLLMのファインチューニングにあたる調整・追加学習を行うもの。従来のファインチューニングでは大量のデータが必要となり、コストも高く、Another Meの開発には適用が難しかった。
アダプタ技術は、比較的小規模のモデルを事前学習済みのLLMに追加して追加学習を行う技術。ペルソナ対話技術は、対話データをもとにプロフィールを学習させ、LLMに特定人物の人格を持つペルソナとして振る舞う機能を追加する技術。ペルソナ対話技術を加えたLLMにアダプタ技術による追加学習を行うことで、少ないデータでも効率的な学習が可能になった。
tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能で、モデルを動的に切り替え、複数人のペルソナを切り替えていくことで、多人数の対話の再現を効率的に実現できるという。
Zero/Few-shot音声合成技術は、従来の技術よりも少ない音声データをもとにして、個人の音声を高品質、かつ多様に生成できる2つの技術。
Zero-shot音声合成技術では、数秒程度の音声から声色の特徴を抽出、音声合成モデルの学習をすることなく、特徴を再現した音声を生成できる。もう1つのFew-shot音声合成技術は、再現したい口調を含む数分~10分程度の音声データから音声合成モデルを学習し、従来よりも少ない音声データをもとに、高い再現性で音声を合成できる。
これらの技術は、一般的なスペックのCPUでも動作するように演算処理の高速化が施されており、音声合成サービスの運用コストを低く抑えられるという。
今回発表されたようなデジタル分身技術により、メタバースほか次世代のコミュニケーションサービスなどにおいて、特定人物の特徴を再現したNPC(Non-Player Character)を自律的に活動させ、コミュニケーションさせることが可能になる。
NTTでは、コミュニティ活動の活性化、有名人やインフルエンサーの分身として活用することによるファンコミュニティの拡大にも期待できるとしており、デジタル分身のプロトタイプをNTTドコモのメタコミュニケーションサービス「MetaMe」に実装。1月17・18日に東京国際フォーラムで実施したdocomo Open House'24にて展示した。
また、NTTでは、MetaMe上でのフィールド実験を2023年度中に開始し、2024年度中には技術の精度向上を図り、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員などとの関係性を築けるデジタルヒューマンやチャットボットの実現につなげていくとしている。