ニュース

江戸時代のくずし字1521文字種・8万6176件の字形データセット無償公開、ディープラーニングを用いた文字認識のサンプルプログラムも~NIIと国文研

 大学共同利用機関法人情報・システム研究機構国立情報学研究所(NII)と、大学共同利用機関法人人間文化研究機構国文学研究資料館(国文研)は17日、江戸時代の古典籍に書かれた“くずし字”の「日本古典籍字形データセット」をオープンデータとして無償公開した。ディープラーニングを用いた文字認識のサンプルプログラムもあわせて提供する。

 データは、「人文学オープンデータ共同利用センター」準備室のウェブサイトで公開されている。NIIと国文研では、デジタル化された古典籍700点の書誌データと全16万点からなる誌面の画像データ、一部書籍では翻刻本文のテキストデータを「日本古典籍データセット」として同サイトで10日より公開している。

 日本古典籍字形データセットには、公開されている古典籍のうち、江戸初期・寛文年間の料理本「料理秘伝抄」など8点の画像データから1文字ずつ切り取った1521文字種のくずし字の字形データ計8万6176件が収録されている。

日本古典籍字形データセット書名一覧

 1件のデータには、見開き画像を分離して回転させた「原本補正画像データ」、画像上で文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDのデータからなる「文字座標データ」、文字を切り抜いた「字形画像データ」、難読文字の情報や注意事項を記載した「作業報告文書」の4種類のデータが収録されている。

 これらのデータはクリエイティブ・コモンズ・ライセンスとして公開されており、NIIと国文研では、すでに公開している古典籍700点の画像データに記された文字に対する検索を行うOCRソフト研究開発のための学習用データセットとしての利用を想定している。

 あわせて提供するディープラーニングを用いた文字認識のサンプルプログラムは、深層学習ライブラリ「Keras」を利用したもの。NIIと国文研では、字形データセットの機械学習のための利用や、人間によるくずし字学習など教育目的での利用にも期待するという。