ニュース

熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築

 国立大学法人熊本大学とTOPPAN株式会社は、公益財団法人永青文庫所蔵の歴史資料「細川家文書」(ほそかわけもんじょ)のうち、崩し字で書かれた約5万枚の未解読の古文書を、TOPPANが開発したくずし字AI-OCRを用いて解読し、約950万文字のテキストデータの生成に成功した。さらに、くずし字AI-OCRによる解読と連動するキーワード検索システムを構築した。

 細川家文書は、江戸時代に小倉藩主・熊本藩主をつとめた近世大名細川家に伝来した5万点以上、約288万枚の歴史資料群。今回はその中で、細川家奉行所の執務記録である「奉行所日帳」、藩主細川忠利の口頭での命令を日次に記録した「奉書」、参勤中の細川藩主が国元の家老・奉行衆に発した書状の控えである「御国御書案文」、小倉・熊本の惣奉行衆から各業務を担当する奉行たちへ発せられた指示書類の控えである「方々への状控」など、合計約5万枚の解読を実現した。これらは、専門家でも解読が困難な、難易度の高いくずし字で書かれたものだという。

左から、奉行所日帳、奉書、御国御書案文、方々への状控

 また、くずし字資料の解読システムと連動するキーワード検索システムを開発し、江戸時代前期の細川藩領国の、約90年間にわたる社会的事件や統治制度についての記述を含んだ資料を、即時に検索収集できるようになったという。

 例えば、今回解読した資料に対し「地震」「大雨」「洪水」「虫」「飢」「疫」などの災害に関するキーワードで検索したところ、300件以上の記述が発見された。その中には、いままで知られていなかった自然災害、疫病流行や飢饉など、未知の重要な記述もあり、今後研究が進められるという。

大量のくずし字資料をAI-OCRでテキスト化し、検索可能にすることでさまざまな分野の研究等への活用が可能に
奉行所日帳に含まれる「洪水」の記述67件の中から、正徳2年(1712年)旧暦6月10日の洪水で、熊本町の長六橋が流された記録を発見

 くずし字AI-OCRによる解読と検索システムの一体化によって、くずし字の解読が障壁となっていた古文書などの一次史料への網羅的調査が容易になることが期待されるという。

 熊本大学とTOPPANは、引き続き共同で細川家文書の解読を進め、現代における防災計画や歴史学の学習・研究拡大に貢献するとしている。また、TOPPANではグループ会社間の連携も行い、古文書解読支援システム「ふみのは」の精度向上を目指すとともに、全国各地の歴史的資料の研究・活用の支援に取り組むとしている。

くずし字文献資料の大規模調査のフロー図