Internet Watch logo
記事検索
最新ニュース

Internet Archiveの110億ページを検索できるサーチエンジン「Recall」


 インターネット上のさまざまなWebサイトの歴史を保存している「Internet Archive」全体を検索できるサーチエンジン「Recall」のベータ版が公開された。

 Recallは、Internet Archiveに登録されている“1996年から現在までのおよそすべてのWebサイト約110億ページ”をインデックスしており、これらすべてのHTMLのテキストに対して全文検索が行なえる。これまでInternet Archiveは、特定のWebサイトのURLを入力するとそのWebサイトの歴史が表示されるという機能しか持っていなかったため、Recallの登場によってアーカイブの利用方法も大幅に増えそうだ。

 興味深いのは、Recallが入力した言葉と関連する語句を認識し、その単語がWebサイト上に登場した回数をカウントしており、単語の増減を時間軸に合わせてグラフ化していることだ。

 例えば、検索語として「Napster」と入力すると、まず右側のグラフにはこの言葉が2000年頃からヒット数が急増している様子が表示されるため、この頃にNapsterが世に現れたことが分かる。続いて、左側のグラフにはNapsterと関連する語句である「Aimster」「MP3 Music」「Free MP3」など関連語句の増減がNapsterの増減と重ねて色分けして表示され、これだけで世の中の大まかな動きをつかむことができる。

 右側の「Categories」や「Topics」の欄には「Napster」と関連するさまざまなトピック、例えばNapster創業者の「Shawn Fanning」、レコード会社の「EMusic」、全米レコード業界「RIAA」など、これまで話題になったさまざまな関連語句が記されており、これを選択するだけで検索結果をさらに絞り込むことができる。この機能はかなり強力で、インターネット上で歴史調査を行なう際などに重宝するだろう。

 Recallは現時点でもかなり使える状態にあるサーチエンジンであるが、現在ベータ段階であるため、バグを発見した際には作者であるAnna Patterson氏にメールするのが望ましい。


関連情報

URL
  サーチエンジン「Recall」(英文)
  http://recall.archive.org/
  Help(英文)
  http://ia00406.archive.org/about.html


( 青木大我 taiga@scientist.com )
2003/09/08 13:46

- ページの先頭へ-

Internet Watch ホームページ
Copyright (c) 2003 Impress Corporation All rights reserved.