【サービス】

1981年からの完全なニュースグループアーカイブも公開

米Googleが大規模バージョンアップ、30億ドキュメントをインデックス

■URL
http://www.google.com/press/pressrel/3billion.html
http://www.google.com/googlegroups/archive_announce_20.html

 サーチエンジンの米Googleは11日、大幅に機能を向上することを発表した。インデックスされているドキュメントの数が30億ドキュメントに増やされただけでなく、20年前にさかのぼって完全なニュースグループアーカイブを公開した。また、ニュースグループをWebから閲覧できるサービス「Google Groups」はこれまでベータ版だったが、11日付で正式公開となった。

 このバージョンアップでGoogleが現在インデックスしているWebページの数は20億ページとなった。発表によるとその中の25%が英語以外の言語を含むページだという。さらに、ニュースサイトなど、更新が頻繁に行なわれるサイトへの検索が容易になった。これまでもGoogleは試験的に新しい検索結果をできるだけ含めるようにしてきたが、今回新たに検索結果のところに「Fresh!」という言葉が表示され、新しいページが、いつインデックスに含まれたかが表示されるようになった。これによりニュースサイトの検索結果とそれ以外のものとが区別しやすくなり、大幅に利用しやすくなった。これはニュースサイトの検索サービスで先行したAlltheWeb.comが既に行なっている機能でもある。

 今回のバージョンアップで最も注目されたのがニュースグループ閲覧サービスのGoogle Groupsの正式公開だ。これまでGoogle Groupsでは1995年以降のニュースグループをベータ版として試験公開する一方、それ以前のアーカイブをボランティアの助けを得ながら編纂してきた。Googleではこれまでの作業の集大成とも言える1981年以降の20年分の完全なニュースグループのアーカイブを公開した。これまで「Deja」など、Webを通してニュースグループを閲覧できるサービスがいくつかあったが、その中でもニュースグループの20年間にわたる完全なアーカイブを公開できた企業はほかになかった。公開されたメッセージ数は7億通にものぼり、その中には、現在のインターネットの基盤ともなっているWebに関するTim Berners-Lee氏の発表メッセージ(1991年8月)や、LinuxのもとになるLinus Torvalds氏によるプロジェクト(1991年10月)の投稿など、歴史的に貴重なものが数多く含まれている。Googleではいくつかの歴史的に重要な投稿を集めて公開しているが、歴史的な投稿を見つけた場合にGoogle社に知らせてくれるように求めている。

「Microsoft corona」を検索したところ。日付の前に「Fresh!」の表示が
Tim Berners-Lee氏の発表メッセージ

 ニュースグループの日本語表示に関してはこれまでサブジェクトが文字化けするなど問題点が多かったが、正式公開版ではfjカテゴリーに関してサブジェクトの文字化けが解消するなど改善が見られる。しかし記事の一部の文字化けは未だに残るほか、日本語ページのトップに配置されるjapanカテゴリーでも文字化けが非常に多いのが残念だ。

(2001/12/12)

[Reported by taiga@scientist.com]


INTERNET Watchホームページ

INTERNET Watchグループinternet-watch-info@impress.co.jp