【技術】
言語による画像検索技術のプロトタイプ
~Penn State大学の助教授が発表
■URL
http://www.psu.edu/ur/2002/imagingdictionary.html
言葉の内容を理解してそれに対応する画像を検索する技術をPenn
State大学のJames Z Wang助教授が開発したことが明らかになった。この技術は、さまざまな画像を統計的に辞書化して、それぞれの言葉と対応させた辞書を作成するもので「Automatic
Linguistic Indexing of Pictures(ALIP)」システムと呼ばれている。この研究は12月4日にフランスで開かれた「ACM
Multimedia Conference」にて発表されたものだ。
ALIPは、人間が画像を認識する時と似たプロセスを採用している。人間は、二つの車輪と座席、ハンドルバーを持つ乗り物を見ると、それを「自転車」と認識する。それは私たちの脳に収められているさまざまな画像の中で「自転車」と、その「物体」の画像が似ていると判断するからだ。ALIPもさまざまな画像を学習して、それを統計モデルとして蓄えた辞書を持っており、画像と言葉と対応させる。
ALIPは、類似している画像との比較を主な特徴とする他のコンテンツベースの画像検索システムと異なり、「花」や「マッシュルーム」などという簡単な言葉の概念から「田舎の」「ヨーロッパの」といった、より抽象的な概念に至るまで認識し、それらの言葉を手がかりに画像を検索する。また画像をこれまでのシステムより詳細に分類することが可能だという特徴もある。
Wang教授が行なったALIPに関する実験では、400枚のCD-ROMに収められた2万4,000枚の写真と、それぞれの写真を説明したコンテンツによってALIPを“訓練”した。この学習の後、コンピューターは自動的に「建物」「景色」「ヨーロッパの」などといった概念を含めた辞書を作成した。ALIPでは、統計的モデリング手法によりこの辞書を使い、コンピューターがまだ知らない新しい画像をインデックス化することができた。さらにこの辞書を使ってランダムに選択された画像をコンピューターが認識できるかどうか試してみたところ、画像に対する検索語がより詳細であればあるほど、正確な画像を検索することができたという。
今後のALIPの課題は正確さとスピードを速めることであるという。Wang氏は「プロトタイプはまだ幼児期にあるとはいえ、CTスキャンやエックス線画像を認識する医学分野に加え、デジタル図書館、ビジネス、Web検索、軍事面においても大きなポテンシャルを発揮している」とコメントした。
(2002/12/6)
[Reported by 青木 大我 (taiga@scientist.com)]
|