国会図書館が出版物の全文テキスト化実験、参加出版社・印刷会社を募集


 国立国会図書館は20日、出版物の全文テキスト検索のための実証実験を行うとして、参加する出版社や印刷会社の募集を開始した。募集期間は8月31日17時まで。

 実験では、出版物の版下データや電子書籍データなどからテキストを抽出し、汎用フォーマット化する。さらに、このテキストデータを館内で検索・表示したり、出版社など外部から利用するためのAPIについても実験する。

 10月から2011年1月まで実証実験用のシステムを構築した後、2月から3月までかけて実証実験の実施および結果のとりまとめを行う。

 参加する出版社や印刷会社は、デジタル出版データの提供などで実験に連携・協力するかたちになる。


実証実験の概要

【追記 18:30】
 実証実験では、賛同する出版社などから提供されるデータに加え、国立国会図書館が独自にデジタル画像データ化を進めている、著作権保護期間が終了した古い出版物の汎用フォーマット化も並行して行う。こちらは主に視覚障害者向けの読み上げのための活用を想定しているという。

 なお、実験で用いる汎用フォーマットは、テキストデータに、出版物のタイトルや目次、本文、章などの構造を示す情報が付加されたものだが、具体的なフォーマット名は現時点では未定。どのようなフォーマットが汎用フォーマットとして利用できるかも含め、今後、調査・検証していく。


関連情報


(永沢 茂)

2010/7/20 17:33