【連載】 【編集部から】 ●検索エンジンと分散コンピューティングの新たな関係?
この計画は分散コンピューティングの利用法の中でももっとも巨大であり、そしてもっとも有名なものだ。何しろ、このSETI@homeには、何百万ものコンピュータユーザーが参加している。分散コンピューティングというのは、CPUのパワーが大半の時間は使われず、眠っていることに注目し、それらを仮想的に接続して仮想的な“スーパーコンピュータ”を作り上げ、さまざまな計算や情報処理を行なわせようという仕組みだ。 分散コンピューティングプロジェクトとは、使われていない多くのプロセッサを仮想的につないで、それらプロセッサのパワーの総和により、1台の仮想スーパーコンピュータを築き上げ、通常は研究目的で作業をこなしていく方式のプロジェクトを指している。数百万台のマシンから計算能力を借りて、研究にかかるコストや時間を削減しようというものだ。SETI@homeの場合、世界最大の電波望遠鏡が受信した無線信号のデータを解析させるプログラムをダウンロードすれば、パソコンのスクリーンセーバーとして動き、動作中に解析の計算を行ってくれる。驚くべきシステムだね。 さて、「検索エンジンの裏側」というタイトルのこの連載で、なぜSETI@homeの話から入ったのかって? 実はあのLooksmart社が、似たような分散コンピューティングプロジェクトを始めたからなんだ。 LooksmartはSETI@homeのようなモデルが、検索エンジンの世界にも導入できるのではないかと考えた。つまり、検索エンジンにとってもっとも重要なシステムのひとつである“ロボットによるWebページの収集”という作業を、分散コンピューティングによって行なえるのではないかという発想だ。 そして今年1月、「Grub」というプロジェクトを買収。これは米オクラホマ州出身のKord Campbell氏が始めたもので、SETI@homeと同じようにコンピュータの空いた時間を利用し、スクリーンセーバーのバックグラウンドでプログラムを走らせることができる。そいつは自動的にWebページを収集し、Looksmartの中央データベースに送り返してくる仕組みだ。Grubのスクリーンセーバーは収集中のWebサイトをツリー状に表示してくれ、見ているだけでも楽しい。なおGrubのユーザーエージェントは、ただ単にgrub、あるいはgurb-clientといった名前になっている。 Looksmartが米国証券取引委員会(SEC)に提出した登録届出書によると、同社はこう説明している。 「分散コンピューティングの手法を検索インデックスのアップデートのプロセスに組み込んでいくことで、インデックスをいつも新鮮なものに保つことができる。これによって得られる利益は大きく、将来的にはコスト削減に役立つことになると信じている」 ここで重要なのは“新鮮”という言葉だね。Looksmartは、インデックスの新鮮さこそが、他の検索エンジン会社と比べた大きなアドバンテージになるものだと考えているわけだ。 このGrubプロジェクトが成功するかどうか。そのためには、少なくとも3つの条件があると僕は思っている。 1. データの完全性
●米Microsoftが新しいエージェントを投入 連載の前回で、検索エンジン業界でのMicrosoftの動きが活発になっているという話を書いた。そして今週、彼らが新しくリリースした収集ロボットの姿がついにはっきりと見えてきた。そのロボットは「Microsoft Prototype Crawler」と呼ばれている。すでに同社が、このロボットを使って、Webページの情報収集を開始していることが明らかになっている。自分のWebサイトのアクセスログを調べてみれば、このロボットの記録が残っているかもしれない。 このロボットが関連づけられているIPアドレスは、以下の通り。 131.107.163.47 そしてログファイルに現れるユーザーエージェント名は、こんな感じになる。 MicrosoftPrototypeCrawler(please report obnoxious behavior to newbiecrawler@hotmail.com) 今までのところ、Microsoftは他社の買収ではなく、独自の技術と戦略で検索エンジン業界に切り込んでいこうとしているように見える。同社が今後どう戦略を展開するのかは、きちんとウォッチしていって、この連載でお知らせしていきたいと思う。
(2003/4/22) [Reported by ジェフ・ルート&佐々木俊尚] |
|