ニュース

江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発

 凸版印刷株式会社は3日、江戸期以前の“くずし字”を高精度でテキストデータ化する新方式のOCR技術を開発したと発表した。同社では、この技術を使った古典籍のテキストデータ化サービスを今年夏より試験的に開始する予定。

「源氏物語」(絵入本、国文学研究資料館蔵)のOCR処理の例

 凸版印刷が2013年から提供している「高精度全文テキスト化サービス」で確立したシステム基盤をベースに、公立学校法人公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせた。テキストデータ化済みの文献をくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でOCR処理できるようにした。

 「近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められているが、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた」という。今回開発した新方式のOCR技術により、専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能になるとしている。

古典籍のテキストデータ化処理の流れ

(永沢 茂)