非営利団体の米Internet Archiveが運営する「WayBack Machine」に収録されているWebページ数が400億ページを超えたことが明らかになった。
Internet Archiveは、インターネット上のあらゆるページやテキスト、動画、音声などをアーカイブして後世に残していくことを目的とする非営利団体。WayBack Machineは、1996年から収集しているあらゆるWebサイトのその時々のページ内容を検索できるようにしている、ほぼ唯一のデータベースだ。すでに消滅してしまったページでもWayBack Machineに痕跡が残されていれば閲覧できるため、世界中の多くの利用者に重宝されている。
Internet Archiveはこれらのデータを、現在は米Amazon.comの子会社となっているAlexaから定期的に寄贈されることによって補充している。それが今回、データ提供を受けた後にWayBack Machineのインデックスをアップデートした結果、検索できるページ数が従来の300億ページから400億ページへと増加した。近年におけるインターネットの爆発的な増大に伴ってページの数も増えている様子がわかる。
インデックスのアップデート作業が終わり、かなり多くの新しいページを検索できるようになったと言えるが、WayBack Machineのポリシーとして、収集されてから6カ月以内はインデックスに含まれないため注意が必要だ。場合によっては12カ月以上経過しないとインデックスに反映されない場合もあるという。
なお、サービスの種類は異なるが、サーチエンジンで最も多くのWebページをインデックスしているとされるGoogleは現在80億ページ強をインデックスしている。
関連情報
■URL
WayBack Machine(英文)
http://www.archive.org/web/web.php
関連記事:過去5年間の100億ページものWebページを保管したWebアーカイブが公開
http://internet.watch.impress.co.jp/www/article/2001/1029/wayback.htm
関連記事:「Alexa Toolbar」バージョン7ベータ版公開
http://internet.watch.impress.co.jp/www/article/2003/0325/alexa.htm
■関連記事
・ @nifty、検索結果の表示画面をカスタマイズできる「@Searchスタイル」(2005/04/11)
( 青木大我 taiga@scientist.com )
2005/04/19 12:27
- ページの先頭へ-
|