「Baiduブログ・掲示板時間軸コーパス」公開、「藁」の激減傾向もくっきり


 検索エンジンを手がけるバイドゥ株式会社は31日、「Baiduブログ・掲示板時間軸コーパス」を公開した。同社サイト内に開設した「Baiduコーパスダウンロード広場」から無料でダウンロードできる。なお、使用にあたっては、教育・研究目的のみに使用し、営利目的で使用しないことなどの条件がある。

 「Baiduブログ・掲示板時間軸コーパス」は、Baiduがクロールしたウェブページからランダムにサンプリングしたもののうち、ブログの本文と掲示板の書き込みに絞って1000万文以上を抽出し、出現した文字列(形態素分割したもののN-gram)を統計データ化したもの。バイドゥによると、ブログのメタデータや掲示板の日時表現に基づき、書き込まれた正確な日時とともに抽出し、時系列に並べたデータをベースにしているのが特徴。対象期間は2000年1月から2010年7月までで、1カ月単位でN-gramの出現数を集計し、テキストファイルとして提供している。

 これにより、コーパスに含まれる任意のN-gramについて出現推移を算出することで、ブログや掲示版における言葉の流行り・廃りを調べたり、芸能人の“息の長さ”を比較するなど、時間軸に沿った言語現象の移り変わりを把握するのに活用できるとしている。これをグラフ化するサンプルスクリプトも公開した。

 例えばバイドゥでは、「モーニング娘」と「AKB48」の出現率を算出したグラフを紹介。現在ファンを好調に増やしているAKB48だが、モーニング娘。の全盛期と言われる2000年から2004年における「モーニング娘」の出現率は、現在の「AKB48」の出現率を大きく上回っていることがわかる。


「モーニング娘」と「AKB48」の出現率の推移
「ワールドカップ」と「オリンピック」の出現率の推移

 また、同社プロダクト事業部のエンジニアである萩原正人氏が以前行った“ネットスラング漢字”の出現率調査では、「藁」が2003年ごろから激減したことが判明。「www」など、ネット上の笑いの表現の変遷もデータから裏付けられるかたちになった。

 「Baiduコーパスダウンロード広場」では、バイドゥが6~7月に開催した「不自然言語処理コンテスト」の際に公開した「Baidu絵文字入りモバイルウェブコーパス」もあわせてダウンロード提供している。今後もさまざまなコーパスを公開していく予定だ。


関連情報


(永沢 茂)

2010/8/31 14:17