【インタビュー】
W3Cの技術スタッフに聞くWeb標準化動向(1)VoiceXMLとマルチモーダルへの発展
|
Canon Research Centre EuropeのDave Raggett氏。XHTMLの解説書「Beginning XHTML」の著者でもある |
しかし、日本語を母国語とする日本のマーケットとユーザーに、欧米中心で策定された規格がうまくフィットするのだろうか。この点に関して同氏は「日本やアジアの企業も規格策定に参加しているので大きな問題はない」という。規格の構造も、多言語に対応するように設計されているのだ。
「規格の上では、基本部分と言語部分で分離されています。基本部分で認識の部分を、言語部分で文法の情報をそれぞれ扱うわけです。ただ、現在のところ日本語専用、英語専用といったモジュールのようなものを用意しているわけではありません。当然のことながら、音声の認識・合成技術を研究する企業は、いくつかの主要な言語に絞り込んで研究しています。どの言語を扱うかはその企業によって異なるでしょう。残念ながらすべての言語に対応しているとは言えませんが、日本語や中国語、ほとんどのヨーロッパ言語には適用可能だと考えています。」
●ボイスポータルよりも自動音声受付で普及それでは、このような音声技術は現在、どのように活用されているのだろうか。
「欧米では、日本で言う“ボイスポータル”のようなサービスよりも、企業が顧客向けに用意する自動音声受付サービスに多く活用されています。いちばん適当な実用例は、電話会社でしょう。番号をプッシュするのではなく、音声による操作でボイスメッセージや電子メールなどのパーソナライズされたサービスが受けられます。」
「このほかの業種でも、新規採用する企業が増えているようです。電話受付に取り入れた場合、『こういう場合は1を、こういう場合は2をプッシュしてください』という方式よりもはるかに使い勝手のよいものになるでしょう。ただこれは、アメリカやヨーロッパの場合に通じることであって、日本については正直よくわかりません。」
実際のところ、音声認識技術は、想定されているアプリケーションが欧米と日本との間でギャップがある。日本で欧米のような電話受付の分野で大きく取り入れられない理由について、同席したW3CスタッフのMartin Duerst氏は、こう付け加える。
「日本ではサービスの質への期待が高く、顧客がサービスセンターに電話をしたとき、人間ではなく機械が応答することに不快感を持つ場合があります。このような文化的なバックグラウンドの相違で、音声認識技術のアプリケーションに差が出ているのでしょう。」
●ハンズフリーからマルチモーダルへ一方、日本で注目されているのはカーナビゲーションシステムなど車載機の分野への応用だ。Raggett氏は音声認識の研究とともに、マルチモーダルのワーキンググループにも在籍しており、それとの関連についても言及している。
「車載機への応用は大きな可能性を秘めているでしょう。マルチモーダルとも密接な関係があります。ハンズフリーに対してもっとも潜在的な需要があるからです。日本では三菱電機が積極的に取り組んでいるようです。」
マルチモーダルとは、音声コマンドやキーパッド、スタイラスペンなど、複数の入出力方式を利用可能にする技術だ。インターネットが、キーボード依存のパソコンからPDA、携帯電話、カーナビゲーションなど幅広い分野の機器へと拡大するにつれ、マルチモーダルの重要性は高まる。この技術によって、ユーザーは状況や使用する端末にもっとも適した方法で入出力できるようになるからだ。
Raggett氏はインタビュー中、音声認識技術をはじめとしたマルチモーダル技術の重要性を再三指摘した。音声認識のほかにもペンデバイスやフォースフィードバック機能のついたジョイスティックのように、触覚でユーザーに情報を知らせる“ハプティックデバイス”のようなものが期待されているようだ。
●VoiceXMLの今後は未知数期待の大きいVoiceXML 2.0だが、現在はまだ産声をあげたばかりの段階だ。実用化された際に考えられるアプリケーションも、まだまだ未知数だという。最後にRaggett氏は、現在のVoiceXMLの進捗状況を語ってくれた。
「VoiceXML 2.0は、まだ勧告候補の段階です。どんな新しい機能を盛り込むか決定していませんし、さらに実装テストも繰り返さなければならないでしょう。以前のバージョンとの互換性も保たなければなりません。今は参加企業が新機能の優先順位を考えたりしていることでしょう。新機能のひとつの例として、話し手の識別機能が挙げられると思います」
VoiceXML 2.0では、音声合成(SSML)やデジタルオーディオ処理、音声やDTMF(タッチトーン)入力の認識、音声入力の録音、電話機能、双方向会話などに対応するよう設計されている。これにより、テレフォンサービスのような対話型の音声応答アプリケーションにWebコンテンツの利点を加え、インターネットと電話の融合が実現する。
◎関連記事
■音声対応のWebサービスを作成するマークアップ言語「VoiceXML」が公開
■W3C、Webへの音声入出力を実現する「VoiceXML 2.0」の勧告候補を公開
■VoiceXML Forum、W3Cの「Multimodal Activity」を支持
(2003/4/30)
[Reported by 伊藤大地]