インタビュー
ヤフーが日々蓄積するビッグデータの塊、3500台のHadoopで処理し地道に活用
(2013/9/17 12:00)
「Yahoo! JAPAN」でユーザーが検索したキーワードなど、日々蓄積されるビッグデータ。ヤフー株式会社では、200名以上の“データスペシャリスト”がそれらビッグデータの塊に日々向かい合い、事業に活用している。最近では、検索ビッグデータを使って国政選挙やインフルエンザの流行、景気などを予測する分析レポートも発表しているが、同社のビッグデータ活用は何もこうした社会的な取り組みだけではない。Yahoo! JAPANのサービス改良や売り上げの増加に実際に成果を上げているという地道な取り組みを、同社データソリューション本部本部長の小間基裕氏に聞いた。
3500台のHadoopクラスターと260名のデータスペシャリスト
Yahoo! JAPANに蓄積されるビッグデータは多岐に渡る。検索キーワードのほか、コンテンツプロバイダーから提供を受けて掲載している「Yahoo!ニュース」の記事、「Yahoo!知恵袋」に投稿される質問と回答、それら各コンテンツのカテゴライズやページビュー(PV)、クリック履歴のデータ、「ヤフオク!」「Yahoo!ショッピング」の商品の情報や販売履歴、TwitterからFirehose APIで提供を受けている人々の膨大なつぶやきもある。
また、例えば検索であれば、検索キーワード(厳密には検索結果ページのURL)のほか、タイムスタンプやアクセス元のIPアドレス、検索結果に表示されたURL、実際にクリックされたURL、ページの滞在時間など、1回の検索に対して100~200項目がログに残るという細かさだ。
日本で最も利用されているウェブサイトでこうしたデータが日々蓄積されているというのだから、いったいどれだけのデータを日々処理しているのか想像しがたいものがあるが、小間氏によると、最近ではその容量について「数字としてはきちんと出していない」という。ビッグデータの容量といっても、生のロギングデータのことなのか、処理のために抽出したデータのことなのか、あるいは圧縮・非圧縮でも異なってくるため、数字を挙げて言い切れるものではないからだ。
その代わりに示しているのが、月間ページビューが507億PV、ピーク時のアクセス数が秒間5万件という数字であり、そうした規模のデータが蓄積され、それを処理するために、国内最大級ではないかという3500台のHadoopクラスターを運用しているということだ。
こうしたビッグデータの塊を中心に業務を行っているのが、小間氏率いるデータソリューション本部だ。同本部には5つの機能があり、1)フロントエンドサーバーから中央へのデータ収集や、Hadoopクラスターの運用・チューニングなどを行う「データインフラチーム」、2)収集したデータのウェブGUI開発やグラフ化などを行う「アクセス解析チーム」、3)レコメンデーションやターゲティングのプロダクトを開発する「レコメンデーション/ターゲティングチーム」、4)自然語処理や音声認識、機械学習、動画像処理などを担当する「要素技術チーム」、5)データ処理技術者と経営・企画担当者との橋渡し役ともなる「コンサルテーション/企画チーム」――で構成。現在、約160名が在籍している。Yahoo! JAPANでは、昨今のようにビッグデータの潮流が注目されるようになる以前、10年も前からビッグデータの重要性を経営陣が認識しており、会社の規模拡大とともにデータソリューション本部も増員してきたという。
Yahoo! JAPANのビッグデータの塊の周辺には、データソリューション本部のほかにも、いくつかの組織/メンバーが配置されている。Yahoo! JAPAN研究所では、先端技術をプロダクトに生かすための研究を行っており、約20名が在籍。また、可視化推進本部という組織には約30名が在籍し、主にマーケティング動向に基づくサイト展開をサポートしている。さらに、1000名規模のマーケティングソリューションカンパニーの中にも、データに基づく広告商品の改善をミッションとしているメンバーが50名ほどいる。
合計260名が、日々データと向かい合うことを仕事にしているYahoo! JAPANの“データスペシャリスト”だ。
基本を地道に――愚直にビッグデータに従い“ユーザーファースト”実行
では、3500台のHadoopクラスターと260名のデータスペシャリストによって、Yahoo! JAPANではビッグデータの塊をどう活用しているのか?
ウェブ事業者におけるビッグデータの利活用というと、閲覧履歴などに基づいた商品レコメンデーションとターゲティング広告の2つが代表的なものだというが、Yahoo! JAPANでは「もっと細かいことをやっている」と小間氏は説明する。
その1つが、検索キーワードの入力補助機能だ。ユーザーによく検索されているキーワードや単語の組み合わせを、候補として自動的にリストアップしてくれるこの機能は、米Googleが最初に導入し、Yahoo! JAPANも追随して提供しているものだ。検索窓に単語が入力された時点でプルダウン形式で他の候補を提示するほか、検索結果ページにも他の候補を表示するなど、最近では検索サービスの一機能としてコモディティ化している。
キーワードの提示の有無や、提示する際の上下の位置(順位)を決めるのに検索ビッグデータを活用しているわけだが、提示した候補が実際にクリックされているかどうかといった要素も反映している。
小間氏によると、Yahoo! JAPANで行われる検索(検索結果ページのPV)のうち33%が入力補助を経由したもの。検索サービスの重要なコンポーネントになっており、特にPCよりもテキスト入力のわずらわしいスマートフォンからの利用で、使い勝手の向上に大きく貢献しているという。
次に小間氏が「さらに地道というか、細かい例」として挙げたのが、検索結果ページの自動最適化だ。Yahoo! JAPANでは現在、検索エンジンはGoogleから提供を受けているため、キーワード検索結果としては基本的に同じものが返ってくるはずだ。しかし、検索結果ページ内に、Yahoo! JAPANの独自コンテンツなどをモジュールとして差し込んで表示することで、Googleとの差別化が図られている。
例えば芸能人の名前の検索であれば、その芸能人の画像検索結果を上位に入れ込むといったものがポピュラーだが、そのほかにも「結婚式 祝儀 相場」といったキーワードであれば、Yahoo!知恵袋からの記事が上位に掲出されるといった具合だ。あるいは、Yahoo!ニュースの記事内の解析とあわせ、事件などの時事キーワードで検索された際に、記事の解析結果とキーワードの検索数の上昇カーブの条件がマッチした場合にYahoo!ニュースの記事を掲出するパターンもある。
このようにビッグデータから各種指標となる要素をモニタリングすることで、各モジュールの表示の有無や最適な表示位置を決定している。「当たり前のことだと思われるかもしれないが、こういうことを地道にやっているからこそ、Yahoo! JAPANは強いのだと言えるのではないか」と小間氏は語った。
さらに「もっと地道な例」として小間氏が示したのは、Yahoo! JAPANの検索結果ページの2種類の画面だ。一見してどこが違うのか分からないが、実は微妙にページデザインが異なっており、一方は検索窓の縦が22ピクセル、もう一方が28ピクセルとなっている。こうしたものを実際に表示し、利用状況の違いなどを測定するライブテスト(ABテスト)を、Yahoo! JAPANでは100項目近くの指標で実施。ページの仕様を繰り返し改良してきたとしている。
検索窓のサイズのテストでは、縦28ピクセルのデザインの方が、売り上げが0.64%多かったという。検索窓が大きい方が目立つために検索クエリが増え、PVが増加したのではないかとの仮説はあるものの、その因果関係までは明確に説明できないことも多いという。
しかしながら、わずか6ピクセル広げるだけで0.64%の売り上げ増加に結び付くことが証明されたわけであり、これは年額に換算すれば数億円に相当する。「最も愚直にデータに従うことで、“ユーザーファースト”を実現した例と言える。極めて基本かつ地道な例だが、こういったことを実現することで+1%の対競合優位性を築いてきた。GoogleとYahoo! JAPANの一騎打ちにある日本の検索サービスでは、この+1%が大きな差につながる。検索結果はあまり変わらないはずだが、たった1%の心地よさが勝負を決める」。
ビッグデータ活用を成功させるために、重要でシンプルな2つのポイント
ビッグデータの利活用で成功するために重要なポイントとして、小間氏は、「すべてのデータ項目を処理対象しないこと」そして「すべてのデータ要素を処理対象にすること」という2点を挙げた。
1点めは、いくらビッグデータといっても多くのデータ項目を活用すればいいというのではなく、サービスの目的を明確にし、逆に必要なデータ項目だけを切り出して処理するという意味であり、「コストにこだわる」ということだ。例えば、キーワード入力補助の例では、膨大な項目が記録されているログの中から、タイプスタンプとキーワードの項目だけを抽出し、小さなデータベースを作れば事足りるのだという。
一方、2点めは、いったん使用すると決めて抽出したデータは、10%サンプルなどではなく、すべてのデータをロングテールまで全部使うことで、「クオリティにこだわる」ことだとした。
検索ビッグデータから“マルチビッグデータ”へ「横串」
Yahoo! JAPANでは今後、“マルチビッグデータ”の取り組みを加速させる。大手ウェブ事業者には、検索、ソーシャル、ショッピングなど、それぞれの領域でナンバーワンの地位にある企業はあるが、それらほぼすべての事業領域を1社で保有し、複数の価値あるデータソースを連携して扱えるのがYahoo! JAPAN最大の強みだとしている。
例えば検索キーワードは重要なマーケティングデータでもあるため、商品のレコメンデーションや広告ターゲティングにも活用しているが、現時点では、検索ビッグデータを活用しているのは主に検索サービス内だ。Yahoo! JAPANは今後、これに「横串」を挿して、その強みを発揮していきたい考えだ。
すでに、前述のビッグデータによる予測レポートのように、検索クエリ数や全体のPV、ツイート言及数など、複数のデータソースを活用する取り組みも少しずつ行っているという。さらに今後、“マルチビッグデータカンパニー”としてのパワーを結集し、サービス/プロダクトの開発につなげていくとしている。
なお、複数事業領域のマルチビッグデータを活用していく方針のYahoo! JAPANだが、小間氏によれば、個人情報にひも付くようなデータはロギング時にタッチしないよう気を付けており、また、ビッグデータを活用する際にもYahoo! JAPAN IDに登録されている住所や年齢といった個人情報/プライバシー情報には絶対に触らないと明言している。将来的にはそういった情報も活用する可能性は否定しないものの、例えばキーワード入力補助においても現段階ではユーザーごとのパーソナライズは行っておらず、あくまでもYahoo!JAPANユーザー全体でよく使用されているクエリに基づいた処理を行っているかたちだとした。