ニュース

国立国会図書館が収集した国内サイトが1万件を突破、36億ファイル・632.9TB

 国立国会図書館は1日、日本国内のウェブサイトを保存する「インターネット資料収集保存事業 (WARP:Web Archiving Project)」において、収集したウェブサイトが1万件を突破したと発表した。

「インターネット資料収集事業 WARP」

 同事業は、2002年から開始したもので、2015年10月末時点のサイト数は1万69件、保存件数(収集回数)は9万6545件、データ数は約36億ファイル、データ容量は632.9TBに及ぶという。

 WARPでは、国立国会図書館法に基づき、国の機関や地方公共団体、独立行政法人、国公立大学のサイト約5400件を収集するほか、公益法人、私立大学、政党、国際的・文化的イベント、東日本大震災に関するサイト、電子雑誌など、発信者の許諾を得ている約4600件を収集している。

 WARPにより、日本国内のサイトのトレンドもいくつか判明している。国の機関のサイトでは5年でURLの6割が消失していることが明らかになったほか、都道府県サイトのリンク関係において、東日本大震災後に福島県・宮城県へのリンクの増加が確認されている。また、保存されたサイトの容量では、国土交通省のサイトが41TBと最も多かった。

都道府県ウェブサイトのリンク関係を可視化したもの
これまで「WARP」で保存してきたウェブサイトの容量を可視化したもの。国土交通省が41TBで1位

(山川 晶之)