2日、ホットリンクが主催したセミナー「評判・風評が企業の事業や実績を大きく変える!」で、東京工業大学精密工学研究所の奥村学助教授(ホットリンク技術顧問)がブログ検索「blogWatcher」の評判検索について講演した。
● blogWatcherの評判検索は、評価語・属性・対象の「3つ組」が基本単位
|
東京工業大学の奥村助教授
|
企業などが評判を知りたいという場合は、これまでも自由回答式のアンケートやコールセンターでのやり取りをもとに分析が行なわれてきた。従来はテーマを絞り、領域を限定して回答を募り、それをテキストマイニングツールや手作業でデータベース化するような方法が採られていたが、インターネットのような漠然とした対象の場合、「手作業では限界がある」という。
blogWatcherの評判検索では、ブログに記述された形容詞と形容動詞に注目。ただし、ブログ上には「おいしい」や「まずい」など単体で評価を下せる言葉だけがあるわけではない。そこで、評価語となる形容詞・形容動詞以外に、その対象となる言葉や属性を表わす言葉にも注目した。
例えば、「大きい」という評価語の場合、「HDDの容量が大きい」と記述されていればポジティブな評価だが、「HDDの騒音が大きい」と記述されていればネガティブな評価になる。この場合「HDD」が対象で、属性は「容量」「騒音」だ。blogWatcherでは、評価語・属性・対象の「3つ組」を評価極性の基本単位としている。
● 今後の課題は主語が省略された文章
3つ組のデータベースを作成する手順は、まず評価語の候補をブログのテキストから収集すること。次いで、評価語の周辺を形態素解析ツール「Chasen」や係り受け解析ツール「CaboCha」で解析し、属性・対象を判定する。その後、インデックス化された3つ組を、ポジティブかネガティブもしくは両方の意味に取れるニュートラルに分類するという手順になっている。
分類に際しては、Semi-Supervisedな手法を採用したという。「Supervisedの場合は、すべての正解をあらかじめ入力する必要があるが、Semi-Supervisedな手法であれば、わずかな“子種”さえ入力しておけば、そこから類推してポジティブ・ネガティブの判定が可能になる」。また、分類の手がかりとして文末表現などにも着目。「(笑)」や「(^-^)」といったインターネット独特の表現も考慮し、評価語がポジティブかネガティブかを分類している。現在のところ、57万セットの3つ組を分類しており、検索精度は80%程度だという。
このほか、評価語については形容詞と形容動詞以外の品詞も対象とするべく開発を進めている。また、対象については主語が省略されがちな日本語特有の問題もあるという。例えば、「リンゴが実家から届いた。甘くておいしいです」の場合、人間が読めば評価語が「おいしい」で対象が「リンゴ」と一目瞭然だが、評価語が含まれる文章の主語が省略されてしまっているため、blogWatcherではエラーが発生しやすい。
blogWatcherでは、こうしたケースに対応するため、省略された主語を補完する「センタリング理論」を採用している。それでも「検索が上手くできない20%のほとんどは、主語が省略されたケース」とし、検索精度を向上させるための今後の課題だとした。
● 次期バージョンではバースト検索を強化「視聴率より踏み込んだ調査が可能に」
講演後の本誌の取材に対して奥村氏は、2006年3月にリリースを予定している次期バージョンでは、検索精度を現在の80%から向上させるほか、検索対象の範囲を広げる予定だと回答した。
さらに、検索キーワードを扱うブログ数を時系列でグラフ化し、インターネット上の盛り上がり度を示すバースト検索においては、それぞれのブログが新聞やテレビなどマスメディアの影響を受けているかどうかや、影響を受けているとすればどのメディアから影響を受けているかなどを解析できるようにする。「視聴率のようなイメージだが、視聴率よりも奥まで踏み込んだリサーチができるようになる」という。
関連情報
■URL
「評判・風評が企業の事業や実績を大きく変える!」セミナー
http://www.hottolink.co.jp/service/package/blogwatcher_enterprise/seminar.html
blogWatcher
http://blogwatcher.pi.titech.ac.jp/
blogWatcher開発日誌
http://www.lr.pi.titech.ac.jp/blogwatcher/blog/
関連記事:ブログから評判や話題を抽出できる「blogWatcher」[Broadband Watch]
http://bb.watch.impress.co.jp/cda/blogrelay/10524.html
( 鷹木 創 )
2005/08/02 19:37
- ページの先頭へ-
|