「Google Correlate」がLabsで公開、時系列グラフから似た傾向の検索語を表示


インフルエンザの流行傾向と検索語のグラフ

 米Googleは25日、実験的サービスを公開するGoogle Labsにて、新サービス「Google Correlate」を公開した。

 Googleでは、検索語を入力するとその検索語がいつ、どれくらい検索されたかを時系列グラフで表示できる「Googleトレンド」を提供しているが、新サービスのGoogle Correlateは逆にグラフを入力することで、そのグラフと似た検索傾向を持つ検索語を見つけ出し、表示してくれるというサービスだ。

 この技術は、Googleがインフルエンザ流行傾向を予測するために28か国で公開した「Google flu Trends」の技術を利用している。

 Google Flu Trendsでは、米国疾病予防管理センターから、数年にわたるインフルエンザ流行傾向に関するデータを入手し、それと似た検索トレンドを持つ検索語句を探したところ、「cold(風邪)」や「flu(インフルエンザ)」といった語句のトレンドが、実際のインフルエンザ流行と似たパターンを示すことが発見された。これによって、「風邪」や「インフルエンザ」といった検索語の傾向を追跡することで、実際のインフルエンザ流行の予測ができるのではないかという発見に至った、という経緯がある。

 Google Correlateでは、ユーザーが時系列データを決められたフォーマットにしてアップロードすると、データベースの全クエリーに対してピアソン相関係数を計算し、高い相関係数のもの(最も高いのはピアソン係数r=1.0で、最も低いものはr=0.0となる)をリストにして表示する。検索語のトレンドと、ユーザーがアップロードしたデータを重ね合わせて、相関の具合を見ることができる。Googleではあらかじめ利用できるデータセットのサンプルも用意しており、手軽に試すこともできる。

 Google Correlateは、正の相関しか調べることができないが、ユーザーが入力データに「-1」を掛けることにより、実質的に負の相関関係を得ることも可能だ。ユーザー側に完全な時系列データがなく、空白部分があったとしても、Google Correlateは間を補い、同じように利用することができる。

 また、時系列データをアップロードしなくても、Google Correlateの画面上にマウスでグラフを描くことで、相関の高いキーワードリストを表示させることも可能だ。

 Google Correlateが使用しているデータは、2003年以降の全米における検索結果と、米国各州ごとの検索結果だ。現時点では、日本語や他の言語によるクエリーなど、米国内で行われにくい検索結果が得られない。使用しているデータベースは、毎週アップデートされるという。

 Google Correlateを利用するためには、Googleアカウントにログインする必要がある。また、相関係数が低いクエリ、スペルミス、ポルノ、数が少ないクエリ、時系列の相関がわずかしかないクエリなどは除外するとしている。


関連情報

(青木 大我 taiga@scientist.com)

2011/5/26 12:09