話した会話をその場で英語に翻訳する技術などを公開

~マイクロソフトリサーチアジアの次世代の研究開発成果をみる

 マイクロソフトは、コンピュータサイエンスおよびソフトウェア工学の基礎研究や応用研究を行う、マイクロソフトリサーチを持つ。

 1991年に、本社がある米ワシントン州レドモンドにマイクロソフトリサーチを設置して以来、これまでに英国・ケンブリッジ、中国・北京、米国・シリコンバレー、インド・バンガロール、米国・ボストンに研究所を設立。

 2012年5月には7カ所目の研究所として、米国・ニューヨークに新たな研究所を設置した。ここで開発されるのは、中長期的な視点での実用化を目指した技術であり、将来のマイクロソフト製品に活用される。

マイクロソフトアジアリサーチは、微軟並州研究院と表記する中国・北京にあるマイクロソフトリサーチアジア。昨年引っ越した


マイロソフトリサーチは世界に7カ所。先月ニューヨークに新たな研究所が設立されたマイクロソフトリサーチアジアは1998年に設立。Bingの技術などでも実績を持つ


遺産保護、ヘルス、クラウド、教育の分野で研究開発をすすめる

 「すべての研究において、その分野の最先端の研究領域を拡大すること」、「革新的な技術を速やかにMicrosoft製品に技術移転すること」、「Microsoft製品の将来性を確実にすること」という基本的な姿勢のもと、遺産保護、ヘルス、クラウド、教育という4つの領域において、研究開発を進めており、さらに大学との産学連携をはじめ、110以上のプロジェクトでの研究開発を進めている。

マイクロソフトリサーチアジアの内部の様子マイクロソフトリサーチアジア産学連携担当の宋羅蘭シニアディレクター

 日本では、2009年11月から、マイクロソフトリサーチと、日本の大学と研究グループの関係性を強化する取り組みとして、Mt.Fujiプロジェクト(Microsoft Research アカデミック連携プログラム)をスタート。数百万ドルを投資し、共同研究、人材育成、学術交流、カリキュラム開発という4つの観点から共同プロジェクトを行っている。

 全世界のマイクロソフトリサーチの人員は、900人以上。すべてが博士号を持つ研究者だ。「マイクロソフト全体の社員数は9万人。それに比較するとわずか1%に過ぎないが、コンピュータサイエンスに特化した研究開発組織としては、世界最大規模。ワールドクラスの研究者も少なくない」と、マイクロソフトリサーチアジアの宋羅蘭シニアディレクターは語る。

壁はホワイトボードとして利用。議論の内容を共有できるようになっている研究者同士がコミュニケーションを行える場を用意している

 1998年に開設したマイクロソフトリサーチアジア(MSRA)では、ナチュラルユーザーインターフェース、データインテンシィブコンピューティング、データマルチメディア、コンピュータサイエンス、サーチの5つの分野において研究開発を進めているという。

 マイクロソフトリサーチアジア技術戦略部の張益肇シニアディレクターはその一例として、「MSRAでは、ギガピクセルの画像を撮影できるカメラを開発。これを活用することで、撮影した画像をズームアップして、映像を細かいところまで再現し、油絵の細かいペインティングの起伏まで再現できるようになる」とした。

マイクロソフトリサーチアジア技術戦略担当の張益肇シニアディレクター

 このほかにもBingの検索技術や、KinectにもMSRAで開発された技術が活用されてきた。


手書きのイメージから、画像を検索する「Mindfinder」

 MSRAが開発した検索技術のひとつとして「Mindfinder」がある。手書きのイメージから、画像を検索するシステムだ。

 「手書きの線画からイメージは過去10年以上に渡って、実現が難しい技術であったが、これを解決するものになる」とする。丸を書いたときに、それに合致する画像を検索したり、さらに複雑な画像についても似たような画像を抽出することができる。

 「Windows 8の登場によって、タッチスクリーンを利用する時代が訪れる。Mindfinderは、スクリーンに丸を書いたときにその位置や数によって、画像を検索することができる技術で、子供の教育のために利用することや、洋服のデザインを手書きから検索して購入するといった利用が想定される。」

 教育分野では、手書きした絵と同様のイメージを持ったイラストを検索し、それを組み合わせることで、簡単に絵が書けるといったことも可能になる。

手書きで画像などを検索できる「Mindfinder」


数10億のウェブページのデータを活用するBing Dictionary

 Bing Dictionaryは、数10億のウェブページのデータを活用。英語と中国語の機械翻訳をベースに開発したもので、ビル・ゲイツ氏自らが、「Super Dictionary」と称した技術だ。

 学習支援を目的としており、文字を入力すると、辞書から単語の意味を表示するとともに、そこで使われる例文データも表示。「ウェブから最新の情報をベースにしていることから、それにあわせた適切な意味を表示することができるのも特徴」だ。

 また、発音にあわせて想定されるアルファベットを入力すると、その発音に近い言葉の候補を表示。適切な言葉を検索でき、意味を表示することができる。現在、英語と中国語での翻訳が可能であり、Bing Chinaでもこの技術が活用。中国では、すでに一日1000万ページの利用があるという。

 今後、これを日本語にも広げていく考えだ。この技術開発には、MSRAに在籍する日本人研究者が関与している。


テキストを翻訳し、音声出力できる「text to Speach」

 Text to Speachでは、テキストで入力した文章を翻訳し、音声出力できるもので、これを活用することで、中国語を話せない人が、中国語でビデオによる講演や授業を行うといったことも可能になる技術と位置づける。

 データベースのなかに蓄積された翻訳データを活用するとともに、人の唇がどう動いているかを研究し、それをもとに、翻訳した言葉で再生することができる。3Dのアバター画像を利用して、画面上でまさに人が話をしているような様子を作り出すことができる。

 「現時点では、中国語と英語の転換ができたところ。英語と日本語の対応はまだ難しいが、今後、マルチ言語間での転換を行いたい」としている。

テキストで入力した文章を翻訳し、音声出力するText to Speach


話している言葉をリアルタイムで翻訳する「Speach 2 Speach」

 Speach 2 Speachは、話している言葉をリアルタイムで翻訳を行う技術で、MSRAの研究所内にある音声認識、機械翻訳、ユーザーインターフェースなどの各研究グループとのコラボレーションによって実現したもので、「米国人が中国を旅行した場合など、これを使うことで言葉の問題がなくなる。将来、多くの人を助けることができる技術になる」などとした。

 スマートフォンに話しかけるだけで、翻訳した形でスマートフォンから音声出力される。現時点では、英語と中国語との間でのリアルタイム翻訳の研究のほか、英語と日本語との間でも研究を行っている。

 機械翻訳に関わる部分ではそれほど処理能力は必要されないが、音声認識におけるCPUパワーの課題を解決していく必要があるとした。

 「テキスト文章を機械翻訳する際には整理されたものが対象になるが、生活中に会話される言葉は様々であり、句読点などの区切り記号がないことなどの課題がある。ひとつの単語の間違いが全体の翻訳内容を変えてしまうこともあり、いまの技術では完全に翻訳することができない。これが製品化できていない理由のひとつであり、今後、そうした課題を解決していく必要がある」などとした。

話している言葉をリアルタイムで翻訳する「Speach 2 Speach」


撮影した映像のブレなどを軽減する「Video Stavilization」

 Video Stabilizationは、撮影した映像のブレなどを軽減することができる技術で、Windows 8のMedia Foundationのひとつとして提供される予定だ。「この技術は、ムービーメーカーで利用でき、映像のブレなどを抑えることで、撮影したビデオの品質を高めたり、それによりより高い圧縮率で格納したり、ウェブ上でビデオをみるときにこの技術を活用することで品質の高いものが視聴できるといった利用が可能になる」

 手ぶれ補正がない廉価なカメラや、ウェブカメラなどで撮影した画像も、品質の高い映像へと転換することができる。これも日本人の研究者が携わってる技術のひとつである。


角度により異なるコンテンツを同時に表示する「Dual View」

 Dual Viewは、ひとつのディスプレイで、異なる人が複数の角度からみた場合に、異なるコンテンツを同時に表示する技術。液晶ディスプレイが見える角度によって色調などが変わるという傾向を生かして、複数の画像を表示できる。

 「夫婦2人がそれぞれにみたいテレビ番組をひとつのディスプレイで、みたり、トランプゲームで相手に手札が見えてはいけないような場合でも、この技術を使ってプレイできる。今後はどんな角度からみても、異なる画像ができる技術を開発したい」とした。

 自動車のカーナビゲーションシステムでも、運転者と同乗者でみる画像を別のものにするといった応用も可能だといえよう。

角度によって異なる映像をみることができるDual View。鏡に映すと異なる映像がみえていることがわかる


都市スケールのコンピューティング技術「Urban Computing」

 Urban Computingは、センサー、デバイス、人、乗り物、建物などといった都市のなかのそれぞれの動きを捉え、人と都市に役立つための都市スケールのコンピューティング技術。「自動車や人の移動、モバイル端末の利用状況などから街全体の視点から変化を捉えることができる」とする。

 例えば、北京市内のレストラン情報や映画館、バーなどの5年間の出店、閉店のデータを蓄積し、地図上にマッビング。さらに、GPSを活用して個人が移動するデータなどを蓄積。これらを組み合わせることで、どのエリアが発展してきたのか、どんな業種が減退してきたのか、といったことがわかる。

 また、個人の活動データと、タクシーの移動データ、時間帯別の渋滞情報と連携させることで、目的地に早く到着するためのルートを自動的に選択したり、どこの場所に行けばタクシーを拾いやすいか、今後30分以内に何台のタクシーがくるのかといった予測情報のほか、タクシー運転手はどこにいけば顧客が多いかといった情報を収集することができるという。

 現在200人以上のデータを活用して実証実験を行っており、さらに、北京市内にある3万3000台のタクシーのGPS情報を集めた検証を行っている。 「北京市内では、わずか3カ月間で、地球と太陽を3往復できるだけの交通量データを集めることができる」としており、これからのデータをもとにした研究を進めている。


将来必要とされる技術は何か

マイクロソフトリサーチアジアの洪小文所長

 マイクロソフトリサーチアジアの洪小文所長は、「研究員は、具体的なビジネスへつなげるという観点で研究を行っているわけではない。将来必要とされる技術はなにかということを優先している。だが、研究員は自然に、ビジネス化に対する意識をもって研究に取り組んでいる。そうしたスキルを持った研究員を採用している」と語る。

 また、張益肇シニアディレクターは、「我々の目的は、ビジョンを考え、全世界のユーザーのために新たな製品を開発することにある」とする。

 さらに、宋羅蘭シニアディレクターは、「研究成果については、ビジネス部門からの提案と、我々からの提案という双方向の連携によって、製品化につなげるといった動きがある。Kinectの場合も、ゲーム市場における競合製品との差別化のためになにか技術はないかという流れのなかで、MSRの技術が採用されたもの」と語る。

 一方で、研究者は論文の発表にも対してもオープンに行えるほか、研究開発テーマについても、研究者の意思を反映して行うこともできる。

 論文と製品の双方に影響を及ぼしやすい仕組みというのもMSRが持つ独自の重要な要素といえる。
 こうした環境を持っていることも、MSRならではの特徴であるといえよう。



関連情報

(大河原 克行)

2012/5/25 06:00