Internet Watch logo
記事検索
イベントレポート
【 2009/06/12 】
ひろゆき氏&夏野氏が講演「日本のネットは決してダメじゃない」
[18:57]
携帯ゲーム機のような見た目のNGN対応回線品質測定器
[14:28]
ISAO、IPデータキャストを利用したサービスイメージを展示
[11:33]
【 2009/06/11 】
アナログ停波後の周波数帯域を利用したマルチメディアサービス
[18:50]
日テレが「ニュース検索API」などを紹介、国内の地上波放送局初
[18:36]
UQ Com田中社長、高速&オープン志向「UQ WiMAX」のメリット語る
[17:45]
主催者企画コーナーでは「ServersMan@iPhone」のデモも
[11:13]
国内初のデジタルサイネージ展示会、裸眼で見られる3D映像など
[11:12]
【 2009/06/10 】
CO2排出量が都内最多の地域、東大工学部のグリーンプロジェクト
[20:01]
IPv4アドレス枯渇で「Google マップ」が“虫食い”に!?
[19:29]
UQ Com、7月の有料サービス開始に向けて「UQ WiMAX」をアピール
[19:20]
「Interop Tokyo 2009」展示会が開幕、今年はひろゆき氏の講演も
[14:53]

「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術


 gooを運営するNTTレゾナントは25日、「gooオープンカンファレンス」第2回を開催した。ブログ検索の技術をテーマとした技術者向けのセミナーで、gooのブログ検索を担当する杉崎正之氏、ブログ検索「BLOGRANGER(ブログレンジャー)」を担当する戸田浩之氏がそれぞれ講演を行なった。


1億以上のエントリーを収集。本文抽出で検索精度を高める

gooのブログ検索を担当する杉崎正之氏
 杉崎氏ははじめに、ブログの記事とWebページとの違いについて説明。即時性が高く、個人的発言という要素の強いブログではサービスや商品に対する評判や感想が期待できるとした上で、「Web検索が定番を検索するとすれば、ブログ検索はトレンドを検索する」との違いを指摘。「個人的には、ユーザーの発言が時間軸で構造化されて公開されているところが解析の対象データとして面白い」との感想を示した。

 gooのブログ検索はすでに1億以上のエントリーを収集しており、最新約3カ月分のデータが検索できる。クロール速度は「PRのためならいくらでも短くできるが」と前置いた上で、「あまりに短時間でのクロールは、相手のサーバーに対して負荷をかけていますと言っているのも同じ」とコメント、gooでは最短3~5分に設定しているとした。

 本文抽出もgooブログ検索の特徴の1つ。RSS取得後にサイドバーやヘッダー、フッター情報を除くブログのHTML本文のみを取得してデータベース化することで、より詳細な検索が可能だという。さらにサイドバーなどを含まないことで精度も高まるとした杉崎氏は「たとえば“gooブログ”と検索した場合、サイドバーも含む検索ではgooブログすべてが検索対象となってしまい、gooブログについて言及したブログの特定が難しい」と具体例を挙げて説明した。

 ブログ記事で引用されているリンク先もgooではデータベース化。このデータベースを使うことでリンクに対して言及しているブログを知るというソーシャルブックマーク的な利用も可能なほか、期間を指定して話題のリンク先をランキング、「トレンドランキング」として提供している。

 今後の課題としては「1億のインデックスのうち現状は3カ月分のデータしか出せていないが、できればすべてのインデックスを出し、クロールできていないブログも検索の対象としたい」。また、「Web検索でいうPageRankのような適合度もブログ検索の課題」としつつ、「適合度に関してはブログレンジャーのような技術に期待したい」とコメント、戸田氏にバトンタッチした。


ブログ検索とWeb検索の違い 本文抽出で検索精度を高める

リンク先のデータベース化でソーシャルブックマーク的な利用も可能 今後の課題

リンク情報からブログの適合度を検索するアルゴリズム「EigenRumor」

ブログレンジャーを開発した戸田浩之氏
 ブログレンジャーは、「トピック」「ブロガー」「リンク先」「感想」という4つのフィルターでブログを検索できるサービス。NTTとNTTレゾナントが共同開発したもので、NTTレゾナントの実験サイト「gooラボ」にてサービスが公開されている。

 戸田氏はブログレンジャーを提供した背景について「ブログが爆発的に普及する中、内容に関しては玉石混淆状態であり、更新日時やキーワード適合といった従来のランキングでは見つけられない情報が多く存在する」と指摘。また、最新の話題にすばやく対応する、製品やサービスに対する率直な声が存在する、ブロガーという存在を識別できるというブログのメリットを挙げた上で、「リスト検索でブログを効率的に探すことは難しい」とした。

 こうした課題を解決するために、ブログレンジャーではリンク情報を利用したアルゴリズム「EigenRumor」という分析アルゴリズムを実装。「TOPページの下にブログ記事が関連づけられている」というブログの特徴を利用し、ブログそのものへのリンクと各記事へのリンクを独立して計算する。通常、ブログ記事間のリンク数は1記事あたり2つにも見たないためにスコア付けが難しいが、記事へのリンクをブログに対するリンクとしてみなすことで、検索対象として十分な精度が得られるという。

 精度を高めるためのチューニングも実施。EigerRumorのアルゴリズムではブログ記事を書けば書くほどスコアが高くなる可能性があるため、一定以上記事を書いた場合はそのブログの影響力を抑えるよう設定するほか、古いリンクよりも新しいリンクのスコアを相対的に高めるという対策を行なっている。


ブログレンジャー開発の背景 リンク解析によるEigenRumorのメリット

EigenRumorの技術概要

検索目的に応じて選択できる4つのブログ検索フィルタ

目的に応じて検索できるマルチファセットサーチ
 こうして得られたデータは、「マルチファセットサーチ」と呼ばれる検索目的にあわせた4つのフィルタリングでユーザーに提供。記事に含まれる話題を知るための「トピックフィルタ」「リンクフィルタ」、評判を知るための「感想フィルタ」、書いたブロガーを知るための「ブロガーフィルタ」を用意し、これがブログレンジャーのインターフェイスになっている。

 マルチファセットサーチによるフィルタリングの例を、戸田氏はトピックサーチを例に挙げて説明。固有表現の抽出技術と固有表現辞書を組み合わせ、トピックとして抽出する。固有名詞辞書では、オフィシャル相当へのページへリンクしているアンカーテキストから同義語を抽出することで異表記の同義語も抽出。「八景島シーパラダイス」であれば、公式サイトにリンクした「シーパラ」「シーパラダイス」という言葉も同義語として登録することで精度を高めている。

 抽出されたデータはさらに「重要ラベル選択技術」で分類。検索結果の中で多すぎず少なすぎない中間程度の頻度を高い評価とし、さらに検索結果における単語の出現確率が検索データ全体の出現確率よりも向上している場合にも高評価とすることで、重要なキーワードを確定するとした。

 ブログレンジャーは2005年12月に公開されたが、戸田氏は「開始当初はメディアやブログで取り上げられたが、現状ではアクセスが伸び悩んでいる」との裏話を披露。「リピーターとなって使っていただくための機能」として、4月25日に実装した機能を紹介した。EigenRumorで一定のスコアを得た最新数時間のキーワードをTOPページでタグクラウド的に表示し、カテゴリごとRSSも取得できる。戸田氏は「ブログレンジャーを毎日使いたいと思わせるような情報をこれからも提供していきたい」と語った。


トピック分類技術 25日に実装された新機能の概要

関連情報

URL
  GOC Vol.2 「ブログサーチテクノロジー講座」
  http://arukikata.goo.ne.jp/articleSb.php?ID=393&G1=4

関連記事
NTTとNTTレゾナント、4種類のフィルタを利用したブログ検索の実装実験(2005/12/19)
ブログ検索事業者が語る「ブログ検索市場の未来」(2005/11/18)


( 甲斐祐樹 )
2006/04/26 20:47

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2006 Impress Watch Corporation, an Impress Group company. All rights reserved.