NHK放送技術研究所の「技研公開2004」が30日まで開催されている。ここでは、NHK技研の音声合成技術や、映像生成システムなどを紹介する。
● “音のつながり”を重視し、滑らかに原稿を読み上げる音声合成技術
NHK技研では、ニュース原稿を自動的に音声に変換する技術や、運転者や難聴者向けの自動読み上げ装置を研究している。技研公開では、“音のつながり”を重視して、滑らかに原稿を読み上げる音声合成技術を紹介していた。
この音声合成技術は、単語単位で発音する言葉を認識するのではなく、文章全体で最も音質がよくなる“音のつながり”の組み合わせを高速に選択。「茨城から美都がお伝えします」の場合は、「いばら/き/から/み/とが/おつたえします」と発音する。なお、音のつながりの組み合わせは、NHKの所有する録音データベースのデータを周波数分解し、NHK技研独自の指数「つながりパラメータ」が良好なものを選択するという。
今後は、自然な抑揚の再現性や漢字の読みの正確性などを高めていくとしている。
|
|
TVMLによる音声合成デモンストレーション
|
|
● 好きな視点から歌手やスポーツ選手を見る「任意視点映像生成システム」
「任意視点映像生成システム」は、19台のカメラで被写体を囲んで撮影し、撮影した動画を3D化して、好きな視点で閲覧できるというもの。踊っている歌手や、動き回るスポーツ選手などを好きな視点で見られるという。
また、3D化した被写体は、任意の動画と合成することも可能だ。会場では来場者と3D化した被写体が映像化される展示システム「バーチャルパペット」をデモンストレーションしていた。
|
|
ジョイスティックで視点を操作。好きな視点で被写体を見られる
|
こちらは「バーチャルペット」
|
● 視線を向けるだけでテレビ番組を選択できるシステム
視聴者の目の動きをキャッチして、テレビ番組の選択ができるシステムのデモンストレーションも行なわれていた。テレビの前に視線を読み取るセンサーを設置して、そのセンサーからの信号でテレビを操作するというもの。「言語以外の情報で視聴者の意図を推定する技術だ」という。
デモでは、まずパネル上に番組を表示。目線を好きな番組に動かすと番組が変わる仕組みだ。NHK技研では今後、「視線のほか、音声の高低、強さ、速さなどの情報を利用して、視聴者の操作意図を推定する技術を研究する」としている。
|
|
デモでは、パネル上に番組を表示
|
センサーが捕捉した視線の様子
|
関連情報
■URL
技研公開2004
http://www.nhk.or.jp/strl/open2004/
NHK放送技術研究所
http://www.nhk.or.jp/strl/
( 鷹木 創 )
2004/05/28 16:59
- ページの先頭へ-
|