ニュース

書誌情報や書影データを高速APIで提供する「openBDプロジェクト」、版元ドットコムのデータをカーリルがAPI化

 出版社で構成される業界団体の版元ドットコム有限責任事業組合と株式会社カーリルが参加する「openBDプロジェクト」は、書誌情報・書影のデータを提供する「openBD」のAPI提供を開始した。掲載する書誌情報・書影は版元ドットコムが収集し、APIシステムの開発はカーリルが担当する。

 書誌情報と書影をAPI配信するプロジェクトの目的について、版元ドットコム組合員でポット出版(株式会社スタジオ・ポット)代表取締役社長の沢辺均氏は、「(書誌情報や書影は)出版業界の関係者すら利用が難しく、統一的データベースがなく、例えば書店員が情報を発信する際には、特定のインターネット書店のデータを使うといった方法しか思い当たらない」のが現状と述べた。

ポット出版(株式会社スタジオ・ポット)代表取締役社長の沢辺均氏

 出版社866社が登録している一般社団法人日本出版インフラセンター(JPO)運営の出版情報登録センター(JPRO)では、発売の約2カ月前から発売8日後まで、近刊情報の書誌情報を配信している。JPROのデータは各出版社がXMLの形式で書誌情報を登録するかたちとなる。ISBN出版社記号を取得している出版社は国内に約1万4000社程度あるが、JPROの配信する書誌情報は、2016年実績では全刊行点数の8割程度を占めるという。

 版元ドットコムでは、JPROにより配信されている書誌情報を従来から収集・蓄積している。一方、版元ドットコム会員社のうち、JPROを併用している157の出版社と、JPROを利用しない75社は、書誌情報に加えて書影も版元ドットコムのウェブサイトへ登録している。

 さらに、版元ドットコムでは、JPROの配信データと自社への登録データでカバーできない書誌情報について、国立国会図書館、国立情報学研究所(NII)、各出版社ウェブサイトなどから独自に収集している。

 今回提供されるAPIでは、これらを合わせた77万8793タイトルの書誌情報を提供する。うち44万9680タイトルでは書影も提供するという。今後は「書影の収集率を上げていきたい」(沢辺氏)とのことだ。

 APIによる配信データは、個人やメディア、図書館などがSNSやブログ、ウェブサイトなどで書籍を紹介する際に利用できるほか、書店が販売のために紹介したり、書誌情報・書影を利用したサービス開発を行う場合などの商用目的でも無料で利用できる。ただし、書誌情報のデータは、基本的に販促目的に限り利用できるものとの解釈となるため、改変などは認められない。

 なお、提供するのはAPIだけで、検索サービスを提供しないのは意図的なものだという。沢辺氏は、「例えば、版元ドットコムで言えば、同じ情報が並ぶなら会員出版社の情報を優先させたいなど、検索にはさまざまな価値観によるフィルターがかかるもの。APIで取得した側が自らさまざまな価値や考えに基づいた検索サービスを提供してほしい」とした。

 APIで提供するデータの仕様について、版元ドットコムでデータベース構築を担当している株式会社ラング取締役の大江和久氏によれば、「JPROが配信するデータのフォーマットはONIXに基づいたXMLとなっているが、フルセット仕様ではなく、国内の書誌流通に絞ったサブセットを定義している」と言い、OpenBDの提供するデータも基本的にはこれに準拠した上で、フォーマットはJSONに変換して提供するという。書影は200ピクセル幅がデフォルトのサイズとなっているが、「会員社に高解像をデータの登録を推奨しているので、それを取得できるようAPIの検討をしている」とのこと。

株式会社ラング取締役の大江和久氏

 さらに、版元ドットコムでは、会員出版社の刊行書籍に対し、独自情報として、製品や在庫、TRC(株式会社図書館流通センター)向けとなる内容紹介やジャンルといった情報や、朝日・毎日・読売・サンケイ・東京・日経に掲載された3万7865タイトル・5万5934件の書評掲載の情報を、ISBNコードをユニークキーとして統合した上で提供する。さらに、1万1780タイトルの試し読み、版元ドットコム会員出版社の一部より提供される増刷情報などについても、APIの準備を進めているという。なお、増刷情報についてはJPROでも、販売促進の1つとして提供が検討されているとのことだ。

 ただし、すべての書誌情報について、中身がすべてそろっているわけではなく、情報ソースによってはタイトルや著者名しかないなど、不足したものもあるとのことだ。

 APIの開発を手がける株式会社カーリルは、すでに図書館向けの蔵書検索APIの提供で実績がある。同社代表取締役の吉本龍司氏によれば、「(図書館検索APIの)コール数は1日1000~2000万で、うち3~4割はカーリルのサービス内ではなく、プラグインやウェブサービス、研究目的の機械的アクセスなどからの外部利用」とのこと。

株式会社カーリル代表取締役の吉本龍司氏

 今回提供するAPIの仕様は、1件の書誌情報を1ミリ秒以下で応答できることや、全件取得やデータ同期といった大量なアクセスを推奨する設計となっている。吉本氏は、「JPROが配信するXMLのデータをJSONに変換するだけで、データ量を5GBから3.2GBまでに削減できる」とした。「JPOのこれまで配信したデータを網羅して、ONIXでは複数項目だが、JPOを1つしか使っていない項目などを洗い出し、実運用に即したXMLスキーマを開発。これによりXMLからJSONに変換している」という。「XMLは一次情報としてはいいが、ミリ秒、マイクロ秒で動き、落ちないサービス、データが供給されない状況を避けるサービスの提供を考えれば、より広く使いやすいデータが必要」と述べた。

 データは現在、Google Cloud Platform(GCP)に展開されているが、今後、Amazon Web Services(AWS)とさくらインターネットのデータセンターにエッジサーバーを展開予定。さらに「ウェブサービスで書誌情報を使うためには、いかに速く提供するかが重要」と語り、「配信データの量を考え、データベースを使わず、メモリ上に展開することで十分に速くなる」とした。

 APIでは、書籍のISBNを指定することで、収録範囲や大量/少量の書誌情報を取得できる。「自分のところの検索結果3万件に対してOpenBDの情報を並べ替えたい、検索結果に対して詳細情報を付けてウェブに流したい、といったことが1つのコールで呼び出せ、JavaScriptを使えばウェブブラウザーに一括して表示できる」とのことだ。