W3Cの技術スタッフに聞くWeb標準化動向（1）

【インタビュー】

W3Cの技術スタッフに聞くWeb標準化動向（1）

VoiceXMLとマルチモーダルへの発展
～英Canon ResearchのDave Raggett氏～

■URL
http://www.w3.org/Voice/ (Voice Browser Activity)
http://www.w3.org/2002/mmi/ (Multimodal Interaction Activity)

　今日、コンピュータが我々にもたらす恩恵は計り知れないものがある。しかし、コンピュータと人間を結ぶ入力手段は未だにキーボードに大きく依存しているのが現状だ。だが、これまでの人間とコンピュータとの関係を大きく変えうるのが、音声認識技術や音声合成技術など“音声”を経由したやりとりだ。現在、ロンドンにあるCanon Research Centre Europeに勤務し、W3Cにおいて音声によるインターネットアクセスを可能にする規格「VoiceXML」の策定に取り組んでいるDave Raggett氏に話を聞いた。

●VoiceXMLは日本語にもフィットするのか？

Canon Research Centre EuropeのDave Raggett氏。XHTMLの解説書「Beginning XHTML」の著者でもある

　VoiceXMLとは、XMLをベースにWebの技術を応用し、音声認識と音声合成の機能を持ったコンテンツの構造やレイアウトを定義するものだ。現在、バージョン2.0の勧告候補が出された段階で、Raggett氏の所属するW3Cの「Voice Browser Activity」で策定作業が進められている。この規格が普及すれば、電話から音声で命令したり、合成音声を用いてWebを利用できるようになるほか、自動音声案内サービスなどの構築が容易になる。また、障害を持った人や運転中で手や目が離せない状況にあっても、Webアクセスが可能になるわけだ。

　しかし、日本語を母国語とする日本のマーケットとユーザーに、欧米中心で策定された規格がうまくフィットするのだろうか。この点に関して同氏は「日本やアジアの企業も規格策定に参加しているので大きな問題はない」という。規格の構造も、多言語に対応するように設計されているのだ。

「規格の上では、基本部分と言語部分で分離されています。基本部分で認識の部分を、言語部分で文法の情報をそれぞれ扱うわけです。ただ、現在のところ日本語専用、英語専用といったモジュールのようなものを用意しているわけではありません。当然のことながら、音声の認識・合成技術を研究する企業は、いくつかの主要な言語に絞り込んで研究しています。どの言語を扱うかはその企業によって異なるでしょう。残念ながらすべての言語に対応しているとは言えませんが、日本語や中国語、ほとんどのヨーロッパ言語には適用可能だと考えています。」

●ボイスポータルよりも自動音声受付で普及

　それでは、このような音声技術は現在、どのように活用されているのだろうか。

「欧米では、日本で言う“ボイスポータル”のようなサービスよりも、企業が顧客向けに用意する自動音声受付サービスに多く活用されています。いちばん適当な実用例は、電話会社でしょう。番号をプッシュするのではなく、音声による操作でボイスメッセージや電子メールなどのパーソナライズされたサービスが受けられます。」

「このほかの業種でも、新規採用する企業が増えているようです。電話受付に取り入れた場合、『こういう場合は1を、こういう場合は2をプッシュしてください』という方式よりもはるかに使い勝手のよいものになるでしょう。ただこれは、アメリカやヨーロッパの場合に通じることであって、日本については正直よくわかりません。」

　実際のところ、音声認識技術は、想定されているアプリケーションが欧米と日本との間でギャップがある。日本で欧米のような電話受付の分野で大きく取り入れられない理由について、同席したW3CスタッフのMartin Duerst氏は、こう付け加える。

「日本ではサービスの質への期待が高く、顧客がサービスセンターに電話をしたとき、人間ではなく機械が応答することに不快感を持つ場合があります。このような文化的なバックグラウンドの相違で、音声認識技術のアプリケーションに差が出ているのでしょう。」

●ハンズフリーからマルチモーダルへ

　一方、日本で注目されているのはカーナビゲーションシステムなど車載機の分野への応用だ。Raggett氏は音声認識の研究とともに、マルチモーダルのワーキンググループにも在籍しており、それとの関連についても言及している。

「車載機への応用は大きな可能性を秘めているでしょう。マルチモーダルとも密接な関係があります。ハンズフリーに対してもっとも潜在的な需要があるからです。日本では三菱電機が積極的に取り組んでいるようです。」

　マルチモーダルとは、音声コマンドやキーパッド、スタイラスペンなど、複数の入出力方式を利用可能にする技術だ。インターネットが、キーボード依存のパソコンからPDA、携帯電話、カーナビゲーションなど幅広い分野の機器へと拡大するにつれ、マルチモーダルの重要性は高まる。この技術によって、ユーザーは状況や使用する端末にもっとも適した方法で入出力できるようになるからだ。

　Raggett氏はインタビュー中、音声認識技術をはじめとしたマルチモーダル技術の重要性を再三指摘した。音声認識のほかにもペンデバイスやフォースフィードバック機能のついたジョイスティックのように、触覚でユーザーに情報を知らせる“ハプティックデバイス”のようなものが期待されているようだ。

●VoiceXMLの今後は未知数

　期待の大きいVoiceXML 2.0だが、現在はまだ産声をあげたばかりの段階だ。実用化された際に考えられるアプリケーションも、まだまだ未知数だという。最後にRaggett氏は、現在のVoiceXMLの進捗状況を語ってくれた。

　「VoiceXML 2.0は、まだ勧告候補の段階です。どんな新しい機能を盛り込むか決定していませんし、さらに実装テストも繰り返さなければならないでしょう。以前のバージョンとの互換性も保たなければなりません。今は参加企業が新機能の優先順位を考えたりしていることでしょう。新機能のひとつの例として、話し手の識別機能が挙げられると思います」

　VoiceXML 2.0では、音声合成（SSML）やデジタルオーディオ処理、音声やDTMF（タッチトーン）入力の認識、音声入力の録音、電話機能、双方向会話などに対応するよう設計されている。これにより、テレフォンサービスのような対話型の音声応答アプリケーションにWebコンテンツの利点を加え、インターネットと電話の融合が実現する。

(2003/4/30)

[Reported by 伊藤大地]

【INTERNET Watchホームページ】

INTERNET Watch編集部internet-watch-info@impress.co.jp

W3Cの技術スタッフに聞くWeb標準化動向（1）

VoiceXMLとマルチモーダルへの発展 ～英Canon ResearchのDave Raggett氏～

VoiceXMLとマルチモーダルへの発展
～英Canon ResearchのDave Raggett氏～