月間249億500万ページビュー、ユニークユーザー数約3,931万人と推定される国内最大手のポータルサイト「Yahoo! JAPAN」。連載第3回目となる今回は、ヤフー株式会社リスティング事業部検索企画室プロダクトマネージャーの宮崎光世氏にYahoo!検索の技術的な側面をお伺いした。
■科学的な方法で検索エンジンを評価する
|
ヤフー株式会社リスティング事業部検索企画室プロダクトマネージャーの宮崎光世氏 |
――普段はどんな業務をされているのでしょうか。
宮崎:検索企画室というグループは、検索エンジンについて全般を取り扱う部署でして、検索エンジンの評価を専任で担当してる者もいますし、検索結果をどうやって表示しようか、という部分を受け持つスタッフ、もっと細かくこの部分に天気を表示させよう、ということに取り組んでいるスタッフもいます。私はそうしたプロデューサーたちをまとめるリーダーということになります。
もともと検索担当として、検索エンジンを評価するという仕事をしていました。今年5月31日に、Yahoo! JAPANのページ検索エンジンをGoogleさんのものから独自のYST(Yahoo! Search Technology)に切り替えたのですが、そこに至るまで、どのエンジンを採用するか決めるために、いろいろなエンジンを評価してきました。
――検索エンジンの評価とは、具体的にどのような作業になるのでしょうか。
宮崎:ちょっと使ってみただけではわかるものではありませんから、客観的に評価できるよう性能を数値化します。その1つの例を説明しますと、まず、評価用の検索語のリストを作ります。それをYSTだけではなく、他社の検索エンジンも含めて、さまざまな検索エンジンで検索します。検索結果を、どの検索エンジンが出したものかわからないようにした上で、検索語と結果がどのくらい一致しているかを1つずつ評価します。それが終わると、結果を検索エンジンごとにまとめて集計するのです。そうすると、各検索エンジンのスコアが出てくる。さまざまな検索語について、こうした作業を繰り返して膨大なサンプルを取り、最終的に出たスコアが検索エンジンを評価する上で指標になるのです。
ただし、検索エンジンの評価は検索結果だけではできません。おのおのの検索エンジンを運営する技術者に来ていただいて、技術的な部分で将来性はあるか、トラブルの時にどんな対応ができるか、データセンターはどこにあるのか、会社の経営状況など、いろいろな側面からお話を聞いた上で総合的に評価します。そうした作業の末に、GoogleからYSTに切り替えることになったのです。
■フロントエンドとバックエンド
――自社の検索エンジンを採用されたわけですが、現在、どこまでが米国YSTの領域で、どこからがYahoo! JAPANの領域なのか、検索エンジンの仕組みも踏まえながら簡単に説明していただけませんか。
宮崎:検索エンジンは、フロントエンドとバックエンドという2つの部分に分かれています。フロントエンドは、お客様の検索を受け付けるシステムで、インターフェイスや結果の表示など、目に見える部分を取り扱っています。一方、バックエンドは検索語に対して、どういった結果を返すか、という部分をやっています。いわゆる検索エンジンの基幹部になります。バックエンドから送られてくる検索結果はHTMLではなく、データです。それを再び画面に表示する形に作り直すのがフロントエンド、ということになります。バックエンド部分は米国のYSTが中心になって研究・開発し、フロントエンドの部分はYahoo! JAPANが取り扱っているのです。
――たとえば、「東京の天気」と入力すると、直接「Yahoo!天気」の情報が表示されるダイレクト検索機能の実装は、フロントエンドとバックエンド、どちらで対応されるのでしょうか。
宮崎:どこのデータベースから情報を引き出し、どうやって表示させるかという部分ですから、フロントエンドになります。こうしたダイレクト検索は、利便性をよく検討しながら、充実させていきたいと思います。
――ジャンル別の検索を行なうとき、検索語に「餃子」と入れた場合に、レストラン情報を検索するのか、掲示板での口コミを検索するのか、レシピを検索するのか、そういった部分をコントロールするのはフロントエンドになるのでしょうか?
宮崎:検索語を見て、どのデータベース、インデックスを参照するか決めるのもフロントエンドの仕事ですね。こうしてみるとフロントエンドの仕事が多いようですが、目に見える部分で言うと、検索結果の要約表示などはバックエンドが受け持っているのです。要約したテキストの最適な分量はどのくらいか、そもそもサイトのどの部分から要約を取ってくるか、そういう細かいところもバックエンドが制御していますね。
――要約を読むだけで、問題が解決することもありますよね。
宮崎:どこまで表示すれば使いやすいのか、この部分は常にチューニングを重ねている部分です。
――国内独自で、バックエンドの部分に大きく手を入れるのは可能なんですか?
宮崎:手を入れるというよりは、YSTの方にフィードバックします。世界中から米国のYSTにさまざまな要望が上がりますが、だいたいどこの国も似たような問題を抱えています。サマリーの長さというのは言語に関わらずある問題なので、そういうのは米国の方で全部一緒に解決しています。日本語に関することでも、専任のチームがアメリカにいて、対応できるのです。
――表記の揺れのような日本語特有の問題については、宮崎さんのほうでYSTにフィードバックされるのでしょうか?
宮崎:日本語をどう扱おうかというのは、常にYSTと話し合っています。表記揺れが重要な問題というのは理解しています。しかし、表記揺れをどう扱うのかというのが実はけっこう難しいのです。表記の揺れ自体を検索したい、という場合もありますから、表記が揺れている語句を全部、ひとまとめにされると困るというケースもあると思うのです。さらに、音引きの有無、新字か旧字か、送りがなとか、本当は間違いだけれども世間で通用してしまっているものはどうするのかなど表記揺れ、と一言にいってもいろいろな種類があります。
表記揺れに関する基準作りというか、どこまでやれば便利なのかということは常に検討しています。ただ、検索エンジン側で対応するというのは、1つの方向性に過ぎないと思っています。たとえば、Webサイト自体がいろいろな表記で書かれているので、それによってある程度は吸収されている、という面はありますね。
■SEO対策は機械だけでなく、人のチェックも
――商業サイトでよく行なわれている、検索エンジンで上位に表示させるテクニック、いわゆるSEOに対しては何か対策を取られていますか?
宮崎:中身があるかないか、それによります。結局はお客様の欲しい情報を返さなければダメなのです。SEOがすべてダメ、ということではありません。情報があるのに、ページの作り方が悪いので見つからないような場合はSEOをして見つかるようにしたほうがいいと思っています。
――明らかに検索語から離れたサイトが出てくる場合は?
宮崎:2種類の対応があります。SEOを悪用したサイトについては、YSTの技術で自動で分析して検索結果から省く、という機械の部分と、スタッフが見て落としていく人力の部分もあります。もちろん、Webサイトは全体が何十億という規模ですから、人力も限界があります。人と機械、両方の力でやらなければなりません。そうした不要な結果を省くと同時に、検索精度を上げなければなりませんから、検索エンジンをどういうセッティングにするのか、どういったアルゴリズムを組むのか、そこに尽きると思います。
――逆に、探しているページがなかなか出てこない、というケースもありますよね。
宮崎:みなさん、検索エンジンには「魔法」があると思ってるんです(笑)。自分のページの内容と関係なく、検索エンジンが勝手にお客さんを連れてきてくれると。でも実際、検索エンジンがサイトを評価する際には、そのサイトにあるテキストか、そのサイトに対して貼られているリンクのまわりのテキストしか手がかりがないわけです。そういった意味では、ある程度検索されることを意識してページを作らないと、検索エンジンでも見つからない、ということはあり得ますね。
■検索は総合競技。エンジニアには大きなチャレンジ
――Yahoo!の検索は他社とココが違う! という点を教えてください。
宮崎:Yahoo!としては、とにかく、持てるノウハウをつぎ込んで検索を良くしようとがんばっています。実は、検索結果として表示される内容には各検索エンジンごとで大きな差がなくなってきています。ですが、検索エンジンのバックエンドで動いているシステムは、かなり各社ごと違うと思っています。Googleさんのエンジンでどういったアルゴリズムが動いているのかは知る由もありませんが、YSTに関しては、全体に非常によく考えられた、科学的なアプローチを重視したつくりであると評価しています。
よく「Googleさんと比べてどこがすごいんですか?」と聞かれますが、これは非常に難しい質問です。たしかに、Googleも大変優れた検索エンジンだと思います。しかし、世代第一級の検索エンジンとしてYSTという新たな選択肢ができた、ということだと思っています。
――評価の話をお伺いしたときにも感じましたが、本当に膨大な作業の末にできあがっているんですね。
宮崎:そうです。本当に、すごく真面目に作っています(笑)。よくネットでは「Yahoo!の都合で特定のサイトをリストの上位にしたり、下げたりしているのでは」などと噂されることもありますが、今の検索エンジンの仕組みから考えると、とてもじゃないですが、そんな簡単なものではない。1人の意志で、検索結果をいじるようなレベルのものではないのです。
今や検索エンジンの競争は、技術の総合競技になっていると思うんです。第一、これだけのデータベースを作るためのサーバーを運用するだけでひとつのチャレンジなわけです。それだけでなく、クローリング技術、インデックスの作成、リンクの分析、ランキング技術、膨大な検索要求をさばく技術……すべてが最先端で科学的で、そしてプロフェッショナルの世界です。科学理論や技術がビジネスに直結する、最もエキサイティングな分野といえます。
検索サービスは現在、投資されるお金も収益も莫大で、さらに最先端の分野です。そうした現場で仕事ができるということは、エンジニアにとっては大きなチャンスだと思います。YSTにも、打ち合わせ中にホワイトボードに難解な数式をスラスラと書いて説明し始めるような「数学の天才」が山ほどいます。やりがいのある職場ですから、ぜひ、数学に強い優秀な方に仲間に加わっていただきたいですね。
――ありがとうございました。
□Yahoo! JAPAN
http://www.yahoo.co.jp/
[2004/12/10 取材・執筆:伊藤大地]
- ページの先頭へ-
|
|
|
Copyright ©2004 Impress Corporation, an Impress Group company. All rights reserved. |
|