【技術】

35億ページをインデックスする「Openfind」、そこで使われている技術は?

低コストでスケーラブルなアーキテクチャーを目指す「Openfind」

■URL
http://www.openfind.com/
http://www.openfind.com.tw/
http://www.ccu.edu.tw/

 台湾のサーチエンジン「Openfind」がGoogle、AlltheWeb.comを上回る35億ページをインデックスとしているという情報は以前お伝えしたとおりだが、その技術の詳細が取材により明らかになった。

 台湾・中正大学のDr.Sun Wuによると、Openfindは開発当初からいかに少ないリソースで巨大な問題を解決するかという課題に取り組んできたという。OpenfindがライバルとみているGoogleは、すべてのインデックスをハードディスクではなくメモリに蓄えることにより計算速度を大幅に速めているが、1万以上のPentiumマシンを使っているためにハードウェアにかかるコストが莫大になるとDr.Sun Wuは指摘する。

 これに対してOpenfindは独自技術「OpenScaleテクノロジー」を開発した。この技術は二つの部分に分かれている。一つ目は効率的な分散コンピューティング環境を実現するためにスケーラブルなクライアントサーバーアーキテクチャーを構築し、クライアントの数をできるだけたくさん増やせるような方法でサーバーの計算を最適化する技術。もう一つはインデックスアルゴリズムや検索アルゴリズムと、それに伴うデータ構造を最適化し、インデックス検索をできるだけ少ないHDD上で行なえるようにするというものだ。この結果として、現在、4つの120GBハードディスクを装着したPentium IIIマシン1台で、1億3,000万ページを一秒以下の速度で検索できるようになった。

 Openfindはこの技術により、FreeBSDを搭載した70台のPentiumサーバー上で動作している。10台はPentium IIマシン、25台はPentium III800MHzマシン、25台はPentium III1GHzマシン、そして10台はPentium 4 1.9GHzマシンである。この70台のうち20台はデータ収集用に使い、30台がインデックス検索を行なっている。残る20台はデータの前処理とバックアップ用だ。インデックス検索用の30台のサーバーには1台当たり四つの120GB Western Digital社製HDDが搭載されている。Dr.Sun Wuによると今後も続くWebの成長に追いつくためにさらに30台の新しいサーバーを付け加える予定だという。

 Openfindはこの構成をとることで、Webの成長に合わせてインデックスを増やすことができるだけでなく、サーチエンジンサービスのコストを削減し、ポータルにライセンスする際のライセンス料を大幅に下げることができるというビジネス面でのメリットがある。

 Openfindは現在ベータテスト中だが、今後ユーザーインターフェイスを強化するほか、画像、オーディオ、動画、ディレクトリー、ニュース検索機能を加えたり、関連語の検索、“ファジーサーチ”機能を加える予定だとしている。

 Openfindを開発したDr.Sun Wuは、1981年に国立台湾大学でコンピューターサイエンスと情報工学の学士号を取得、1984年には同専攻で修士号を取得、さらに1992年には、現在米Yahoo!のチーフサイエンティストであるDr.Udi Manberの指導の下で米Arizona大学でコンピューターサイエンスの博士号を取得している。Dr.Sun Wuは1994年にグローバルエリアインフォメーションサービス研究室(GAIS Labs)を台湾国立中正大学に設置、その後1998年にこの技術を元にOpenfind社を設立した。OpenfindのサーチエンジンはYahoo!が2000年にGoogleと提携する前まで「Yahoo! Chinese」のサーチパートナーだった。Openfindが提供している企業向けの検索ソリューションパッケージは日本でもサイバーソリューションズ株式会社から販売されている。

◎関連記事
台湾の研究者グループが35億ページをインデックスしたサーチエンジンを発表

(2002/7/12)

[Reported by taiga@scientist.com]

ほかの記事はこちらから

INTERNET Watch編集部internet-watch-info@impress.co.jp
Copyright (c) 2002 Impress Corporation All rights reserved.