【業界動向】
検索エンジンを国際的に比較評価するプロジェクト「NTCIR」■URL
「情報検索システム評価用テストコレクション構築プロジェクト」(NII-NACSIS Test Collection for IR Systems)という正式名称の「NTCIR」(エンティサイル)は、国立情報学研究所が1998年から行なっている共同研究プロジェクトだ。国内外の企業・大学などの研究グループが、共通のテストコレクション(実験用データセットで、検索の対象となる大量のコンテンツ集や、質問集からなる)を用いて検索エンジンの実験を行なう点が特色だ。共通の基盤で比較評価を行なうことで、個別の研究では難しい多様な技術を、短期間で実験・発展させることが可能という。 2001年夏~2002年夏にかけて行なわれた第3回ワークショップでは、日本、米国、中国、韓国、スウェーデンなど9カ国・65の研究グループが参加。Web検索・言語横断検索・特許検索・質問応答・テキスト自動要約の5部門で、各グループの検索エンジンを競い合った。そこから、 ・言語横断検索における機械翻訳の多様化 などの有効性が検証されたという。また“日本語検索の基本索引単位”について、ワード型(フレーズ型)か2文字型(バイグラム)かで長年論争が続いていたが、ワード型が有利という決着が得られた。さらに現在は、中国語の語分割法で有効な手法の検討が盛んになっているという。 国立情報学研究所の神門典子助教授によれば、「開始した当初は各技術がそれぞれ群雄割拠している状態だったが、回を重ねるにつれ研究が集約され、新たなステップに向かう傾向ができた。当初はテストコレクションのインプリメントだけでプロジェクト参加が終わってしまうグループもあったが、回を重ねて実力を発揮するグループが多い」という。また各部門で高い成績を収めた上位3位のグループは、日本から参加したグループが6割を占めたという。 (2002/12/17) [Reported by aoki-m@impress.co.jp] |
|