【サービス/検索】
goo、国内8,000万Webページを対象とした
|
本誌記事から「ソースコード売買」で検索したところ。他の検索サイトではこのキーワードそのものを含むページは表示されなかった |
NTT-Xの大町氏(左)、NTTサイバーソリューション研究所の小川氏 |
これまでの全文検索エンジンは、Webページが更新されてから検索可能になるまで早くても数日、遅い場合は1ヶ月以上の時間がかかっていた。これは検索対象とするWebページが多いほど、検索対象とするのに必要なデータ処理に時間がかかるためで、このWebページのデータ規模とデータ処理を行なう更新頻度を両立させることが、全文検索エンジンにとっての大きな課題となっていた。
NTTサイバーソリューション研究所ではこの問題を解決するため、バーチャルドメインやミラーサーバーといったWeb空間の構造を学習し、複数の収集ロボットによって効率のよいデータ収集が行なえる「Web空間自動学習による超多重収集制御技術」、Webページの更新された部分だけを判断してデータ収集を行なう「更新ページ学習収集制御技術」という2つの技術を開発。これらに加え、収集した各ページのキーワードを高速抽出してインデックスをリアルタイムに書き換え、同時にインデックスの圧縮を行ない転送量の軽減を図る「圧縮付きリアルタイムインデクシング技術」を用いることで、1億ページ以上のWebページ情報が1日で収集・検索可能な「新鮮情報検索エンジン」を実現したという。これによって、国内Webページの毎日の更新に対応した検索が可能なほか、ニュースサイトや掲示板など頻繁に更新されるサイトでは、最短で15分前に掲載された情報の検索も可能になるとしている。
実証実験では「goo 最新Web検索実験サービス」という専用のサイトを設置したほか、gooの検索エリアに「新検索 公開実験中!」というリンクを設け、ここからもアクセスできる。Webページ全般を対象とした“最新Web”と、IT関連ニュースなどメディアサイトを対象とした“最新ニュース”の2種類の検索が可能で、いずれも新着順、適合度順での並べ替えできる。すでに4,000万ページに対応していて、2003年初頭までに国内のWebページ数と想定される8,000万ページに対応する予定だ。実験ではクローリング頻度の最適化や検索精度の調整などを行ない、更新速度の向上とより精度の高い検索を目指すという。
NTTサイバーソリューション研究所 マルチメディア端末プロジェクト担当部長の小川克彦氏は、「Googleのインデックス更新が遅いので、もっと速さを追求することから始まった。『新鮮情報検索エンジン』はF1エンジンのようなもので、速さについては自信がある。ただ同じクルマでも、人によっては“カーナビやクーラーのあるクルマのほうがいい”という人もいるように、goo本体でのナビゲーションやコンテンツも不可欠」としている。またNTT-X 常務取締役の大町雄一氏は「実験を通じてgoo本体とのシナジー効果を発揮できる展開を探っていく。またASPで使ってもらえるなら積極的に出していく方向で、goo本体とソリューション提供の両面での展開を考えている」と述べた。
◎関連記事
■NTTとgoo、最短1分で最新情報を反映する「ニュース記事検索実験サービス」
(2002/12/3)
[Reported by aoki-m@impress.co.jp]