|
NTTサイバースペース研究所の小原永主席研究員
|
|
NTT-X goo編成本部サービス部の国枝学サービス推進担当部長
|
NTTとNTT-Xは、ポータルサイト「goo」で日本語自然文検索サービス「Web Answers」の共同実験を開始した。gooのトップページから「gooラボ」へアクセスして利用できる。実験は4月まで実施され、その後は「状況を見て、gooの検索サービスに取り込んでいく」という。
Web Answersは、NTTサイバースペース研究所が開発したテキスト解析技術を用いた検索サービス。通常の検索サービスの場合、「2008年 オリンピック 開催」などとキーワードを分割して入力する必要があったが、Web Answersでは、「2008年のオリンピックの開催地はどこ?」というように文章を入力することで検索できる。検索結果には「北京」「大阪」「横浜」など信頼性の高い順に単語が並ぶようになっている。
検索のメカニズムは「質問文のタイプ分類」「高速固有表現抽出」「Webページの再ランキング」の3つ。まず、検索フィールドに入力した文字列を解析し、質問のタイプを「人名」「地名」「日付」「時間」などに分類。文字列からキーワードとなる単語が検索エンジンに入力され、検索結果のテキストから回答候補となる固有表現の抽出と評価を行なう。それらと同時に、目的の単語が当初の検索結果で下位のWebページに含まれると推測される場合、そのWebページを上位に表示しなおすようになっている。
今回の実験では、グーグルの検索エンジンとデータベースを使用。なお、回答候補を抽出する際には、検索されたWebページ全文を読み込むわけではなく、検索した際に表示される概要文を読み込むという。また、高速固有表現抽出については、「学術機関などで使用される日本語固有表現抽出アルゴリズム『SVM(Support Vector Machine)』と比較すると、1桁速い。SVMが秒間5~数十KBのデータを解析するとしたら、こちらは50~1,000KBのデータを解析できる。その分、精度は落ちるがWebで利用するにはそれほど実害はない」(NTTサイバースペース研究所の小原永主席研究員)としている。
なお、Web Answersの実験にあたっては、検索エンジン提供元のグーグルとも話し合いがもたれたという。「当初は実験なので、検索結果には商用サイトを表示させないようにしている。4月以降本格的に開始する際は、グーグルの『ページランク』による並べ順を変えてしまう恐れもあるため、再度両社で検討する予定だ。また、『Google AdWords』の表示についても考慮したい」(NTT-X goo編成本部サービス部の国枝学サービス推進担当部長)としている。
|
|
「2008年のオリンピックはどこで開催されますか?」と入力したところ。検索結果は「北京」「横浜」と続く
|
検索結果の元になったWebページも下部に表示する
|
関連情報
■URL
ニュースリリース
http://help.goo.ne.jp/info/n_release/n_040205.html
Web Answers
http://labs.nttrd.com/
・ NTTとNTT-X、3DWeb検索サービスの機能を拡張(2003/12/24)
( 鷹木 創 )
2004/02/05 19:06
- ページの先頭へ-
|