ニュース

江戸時代より難しいとも言われる、明治~昭和初期の手書き文字を解読できる日本初のAI-OCR、凸版印刷が開発

 凸版印刷株式会社は、近代(明治期~昭和初期)の手書き文字に対応したAI-OCRを開発したと発表した。同社によると、この時代の手書き文字に対応したOCRは日本初だという。

 同社では、古文書のくずし字に対応したAI-OCRを開発し、法人向けのAI-OCRサービス「ふみのはゼミシステム」を提供している。また、9月には、一般向けの古文書解読スマートフォンアプリの開発を発表し、2023年3月に提供開始予定としていた。

 今回のAI-OCRは、これらの技術をもとに開発したもの。近代の手書き資料には、くずし字で記されているものが多く、書き手によるくずし字のばらつき、筆記用具の多様化、カタカナ語の混在、旧字旧仮名遣い表記といった特徴があり、江戸時代の資料より解読が困難な場合もあるとも言われるという。同社では、さまざまなパターンの文字をAIに学習させ、解読を実現した。

近代の手書き文字の難読化要員と例

 今月より、神戸大学経済経営研究所附属企業資料総合センターなどとの実証実験を実施した上で、2023年4月より正式サービスを開始。「ふみのはゼミシステム」や、古文書解読スマートフォンアプリで提供の予定としている。

サービス全体のイメージ

 この技術によって、従来専門家にとっても手間のかかる作業であった、公文書、企業経営文書、業務日誌、書簡のような貴重な情報が記された手書き資料の解読を効率化できるとしている。具体的には、地方自治体・教育研究機関・企業などが所蔵する難読資料の解読補助や、難読資料の利活用を目的とした検索機能つきデータベースの構築補助、謄本類など日常的に難読資料の解読が必要な企業・機関の作業補助などを想定しているという。