Internet Watch logo
記事検索
最新ニュース

国立国語研究所、1,000万語分の日本語コーパスを試験公開

第1弾は「Yahoo!知恵袋」と政府刊行白書のデータ、最終的には1億語が目標

国立国語研究所が公開した「現代日本語書き言葉均衡コーパス」
 国立国語研究所は28日、現在構築中の「現代日本語書き言葉均衡コーパス」のデータの一部にあたる約1,000万語分をインターネット上で試験公開した。今回公開したデータは、政府刊行白書とYahoo! JAPANのQ&Aサービス「Yahoo!知恵袋」の2種類を元にしたもので、単語による全文検索が無償で利用できる。

 国立言語研究所では、明治から現代に至る日本語の電子化資料を公開しようとする「KOTONOHA計画」を基幹的プロジェクトとして推進している。その一環として、日本語の書き言葉に関するコーパス(電子化された大規模な言語資料)に関する取り組みを2006年から開始しており、2011年の完成時には1億語を超える日本語の書き言葉データとして公開することを予定している。

 今回、国立言語研究所では、収集したデータのうち著作権処理が済んでいるデータを対象とした全文検索のデモサイトを公開した。対象となるデータは、政府刊行白書から無作為抽出したサンプル(1,500件、500万語)と、Yahoo! JAPANのQ&Aサービス「Yahoo!知恵袋」(45,725件、500万語)の2種類。Yahoo!知恵袋のデータについては、個人を特定できないようにした上で研究機関などに提供することがある旨をトップページや投稿時の画面などでユーザーに通知しており、3月には国立情報学研究所にもデータを提供している。

 公開されたデモサイトは、現在は検索単語と前後の文章を表示する単純全文検索だが、完成時には単語を単位とした検索や、名詞や動詞といった品詞情報を指定した検索に対応する。また、今後はさらに国会議事録や新聞記事、文芸作品といったデータについて、著作権処理が完了したものを追加していく予定としている。

 国立国語研究所の研究開発部門言語資源グループ長を務める前川喜久雄氏は、コーパスを公開した目的について、「この活動の広報としての目的と、今後発生する著作権処理を円滑に進めるため」と説明。コーパスには幅広い種類のデータが必要とされるが、今後収録していくデータでは多数の著作権処理が必要となるため、どのように活用されるのかを実際にWeb上で示すことにより、著作権者に対する理解や、社会に対して学術目的での著作物利用への理解を求めていきたいとした。


1億語以上の日本語書き言葉コーパスの公開が目標 第1弾として政府刊行白書とYahoo!知恵袋のデータを公開

「今後の著作権処理に理解を求める」ことも試験公開の目的 著作権処理が終了したデータを順次追加する

関連情報

URL
  ニュースリリース
  http://www.kokken.go.jp/syokai/press/07_01/
  KOTONOHA「現代日本語書き言葉均衡コーパス」
  http://www.kotonoha.gr.jp/demo/
  Yahoo!知恵袋
  http://chiebukuro.yahoo.co.jp/

関連記事
「Yahoo!知恵袋」のデータを研究目的で利用、国立情報学研究所が契約締結(2007/03/06)


( 三柳英樹 )
2007/05/28 15:24

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2007 Impress Watch Corporation, an Impress Group company. All rights reserved.