Internet Watch logo
記事検索
最新ニュース

グーグル、日本語N-gramデータを公開


 グーグルは1日、Webから抽出した約200億文(約2,550億単語)の日本語データにより作成した、単語単位のN-gramデータを公開した。データの配布は特定非営利活動法人言語資源協会を通じて行なわれ、学術目的限定でデータを記録したDVD-Rを有償で入手できる。

 グーグルが公開したN-gramデータは、直前の単語の並びから次に来る単語の出現頻度を記録したもの。例えば、「グーグルで」という言葉の後ろには、「検索」という単語が最も多く出現するといったことがわかる。直前の言葉から次に来る単語の頻度がわかることで、かな漢字変換、機械翻訳、OCRのエラー訂正、音声認識といった分野に応用できる。

 公開されたデータは、日本語データを形態素解析エンジンの「MeCab」を使用して分割し、1~7個の単語の並びについて出現頻度20回以上のものが収録されている。英語のN-gramデータについても2006年8月に米Googleが公開しており、このシステムに日本語独自の処理を加えて構築した。

 データを作成したのはソフトウェアエンジニアの工藤拓氏と賀沢秀人氏で、勤務時間の20%を自分の好きなことに使ってよいという、グーグルの「20%ルール」による成果だという。


関連情報

URL
  Google公式ブログの記事
  http://googlejapan.blogspot.com/2007/11/n-gram.html

関連記事
「Yahoo!知恵袋」のデータを研究目的で利用、国立情報学研究所が契約締結(2007/03/06)


( 三柳英樹 )
2007/11/02 15:34

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2007 Impress Watch Corporation, an Impress Group company. All rights reserved.