ニュース

Microsoft、最大100人の会話をリアルタイム音声翻訳、ニューラルネットワークを活用

 Microsoftは7日、テキスト翻訳用の「Translator Text API」とリアルタイム音声翻訳用の「Translator Speech API」の翻訳エンジンをそれまでの統計的手法によるものからニューラルネットワークによる機械翻訳へ切り替えるとともに、Speech APIが新たに日本語に対応したことを発表した。

リアルタイム音声翻訳が可能な「Translator Speech API」

 Speech APIは、これまで英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語、アラビア語、中国語(マンダリン)をサポートしていた。新たに日本語からこれらの言語へ、またはこれらの言語から日本語への音声によるリアルタイム翻訳が可能となる。

 Translator Speech APIによるリアルタイム音声翻訳機能は「Microsoft Translatorのライブ機能」と呼ばれ、Microsoft Translatorのウェブサイト、Android/iOS/Windows向けの「Microsoft Translator」アプリ、Microsoft Edge向け拡張機能「Translator for Microsoft Edge」、Outlookアプリ向けのアドイン「Translator for Outlook」で無料で利用できる。

 また、Windows向けデスクトップアプリ「Skype for Windows」、UWPアプリ「Skype Preview for Windows 10」で提供される「Skype翻訳(Skype Translator)」の機能からも利用が可能。そのほか、「Microsoft Translator PowerPoint アドイン」のプレビュー版では、でプレゼンテーションにリアルタイムで字幕を付加できる。

 Microsoft Translatorのウェブサイトでは、Microsoft、Facebook、Googleのいずれかのアカウントでログインした後、翻訳したい言語と自分の表示名を入力してから会話を行う。会話の相手には、表示される会話コードかQRコードを渡して会話に参加してもらうことになる。デフォルトではテキスト翻訳のみが有効となっているが、左上の設定ボタンからメニューを表示して、音声出力を行うことも可能だ。

 Speech APIでは、口語では発されがちな「あー」「えーっと」、英語では「um」などのつなぎ言葉や、いわゆる「Fワード」などの削除、句読点の追加など、翻訳を行う上で必要な整形を機械学習により処理した「TrueText」として出力する。次に、ニューラルネットワークによる機械学習により、より流暢な翻訳出力を生成、最後にテキスト読み上げ機能により音声出力を行う。

 米Microsoft AI & Researchグループ機械翻訳プロダクト戦略担当ディレクターのオリビエ・フォンタナ氏は、この翻訳技術について「『地球上のすべての個人と組織が、より多くのことを達成できるようにする』というMicrosoftのミッションに対し、どんな場面でも言語の障壁を超えることが可能になる技術」とした。

米Microsoft AI & Researchグループ機械翻訳プロダクト戦略担当ディレクターのオリビエ・フォンタナ氏

 そして、「音声認識にはそれぞれの言語で別の課題があり、日本語の会話の中では“丁寧さ”がほかの言語より豊富で、重要な部分」とした。「(日本人が)カジュアルすぎる言い回しを聞くと、ときにショックを受けることもある。(Speech APIの日本語化では)特に丁寧な言い回しを工夫した」とのことだ。また、例えばゲーム中の音声チャットなどの場面では、「ほかの音声などにより、エラーが起きないように工夫している」という。

 このリアルタイム音声翻訳技術についてフォンタナ氏は、「ときに想像もしていなかったような素晴らしい体験を可能にする」と述べ、その例として、「40歳で聴覚を失った同僚と飲みに出かけても、みんなしゃべっている内容をスマートフォンを介して理解し、楽しめる」といったことのほか、「その同僚の息子は手話ができるが、その彼女は手話ができない。その彼女と直接会話することができるようになった」といったこともあったという。

ニューラルネットワークによる翻訳エンジンで精度が向上

 これまで提供されていた翻訳機能では、これまで人によって翻訳された膨大なデータを活用し、単語の並び順などとあわせて格納したデータベースと照らし合わせる統計的手法により翻訳を行っていた。この手法では、文章を分割して翻訳を行うため、長文全体の関係を処理することが困難だったという。

 今回、翻訳エンジンを、ニューラルネットワーク技術を用いた「Translator Text API」に変更。まず全体の文脈を見渡し各単語のモデルを作成し、文脈内で翻訳を行う。フォンタナ氏によれば、それが犬のイメージで、子犬の世話をしているのであれば、雌だと分かることになるといい、全体の文脈の中で単語を見い出すことが可能になるという。フォンタナ氏は「データはガソリンのようなもの。データがあってこそ、さらに使ってもらうことで、文脈や前後関係に対する精度が向上し、翻訳が良くなる」とした。

 日本マイクロソフト株式会社最高技術責任者の榊原彰氏は、「人による翻訳には、文脈理解と情緒豊かな翻訳表現に利点があり、こうした点はまだTransratorにはないが、機械翻訳の一番の利点はスピード。次から次へアップデートされる文書や、翻訳コストが高く付く場合に利用するといい」とした。

日本マイクロソフト株式会社最高技術責任者の榊原彰氏

 そして、全世界で公開されているウェブページのうち、1カ国語だけで記述されているものが全体の95%を占めていることを紹介。イントラネットで公開される社内用資料の記述も97%が1カ国語のみだという。この数字からは、ともすると翻訳は不要なのではないかと思いがちだが、榊原氏は「1言語だけの対応だと、グローバルなビジネスの機会を逸していると言うこともできる」とした。

 世界的に展開されているアプリやサービスのうち英語が占める割合は、全体の3割にしかすぎない。これに、日本語、中国語、フランス語、ドイツ語を加えた主要5言語では全体の64%にまで増え、さらにスペイン語、ポルトガル語、ロシア語、イタリア語、韓国語を加えると81%に達する。Translator Text APIでは、60言語のテキスト翻訳をサポートしており、これらのウェブページを翻訳可能となる。

 さらに今後は「あらゆる製品にTransratorを搭載していく」とした。現在すでに2つのTranslaror APIがMicrosoft社内向けに利用可能な状態で公開されているという。

企業向けにText/Speechの各APIをAzure Cognitive Servicesで提供

 あわせて企業向けに、「Translator Text API」と「Translator Speech API」を「Microsoft Cognitive Services API」において提供開始する。料金はTranslator Text APIが200万文字まで、Translator Speech APIは最大トランザクション数2までが無料。従量課金制の「S1」では、Text APIは100万文字あたり1020円、Speech APIが1時間あたり1224円。このほか月額課金でも提供する。

 Translator Speech APIはREST APIに基づいており、企業では、OSや開発言語を問わず自社のアプリやサービスに、リアルタイム音声翻訳機能を追加できるという。